본문 바로가기
컴퓨터 활용/통계와 데이터과학

미신이 되고 있는 여론조사

by easyfly 2022. 2. 27.
반응형

여론조사의 허와 실

다음 여론조사는 같은 기간에 비슷한 방식으로 조사된 내역입니다. 그러나 결과는 상당한 차이가 있습니다.

2022년 2월 22일부터 24일까지 조사된 20대 대통령선거에 관한 '리서치뷰'와 '한국갤럽'의 두 기관의 여론조사 과정입니다.

한국갤럽 vs 리서치뷰

(주)한국갤럽조사연구소

(주)리서치뷰

두 기관의 조사 내용 주요 항목을 표로 비교했습니다.

구분 한국갤럽 리서치뷰
유무선비율(유선:무선) 10:90 15:85
접촉 후 거절 및 중도 이탈 사례수 5663 15188
접촉 후 응답완료 사례수 1000 1000
전체 합계 50323 60000
전체 접촉률 30.0% 46.9%
전체 응답률 15% 6.2%
조사 일시 22일,23일,24일(각 10~18시) 22일,23일,24일(14~21시, 24일12~17시)
조사 시간 24시간 19시간
조사 대상 전국 만 18세 이상 남녀

두 곳 모두 조사일은 2022.02.22~2022.02.24로 같습니다. 시간은 '한국갤럽'은 3일 모두 10시부터 18시까지, 24시간 동안.

'리서치뷰'는 앞 2일은 14시부터 21시까지, 마지막 날은 12시부터 17시까지, 조사시간 합은 19시간입니다.

모집단은 '전국 만 18세 이상 남녀'로 유권자 전체입니다. 이 여론조사의 목적은 20대 대선에서 누구에게 투표할 것인가를 알아보는 조사입니다. 표본은 1,000명. 표본을 통한 조사로 모집단의 모수를 추정해 내는 것이 이 조사의 목적입니다.

같은 시기, 유사한 방법으로 조사된 결과는 많이 다릅니다. 언론은 두 기관의 조사 결과를 같이 게재하지 못하고 어느 하나를 선택해서 보도한 상태입니다.

조사 결과의 보도

리서치뷰 조사 결과를 보도한 25일 내외경제TV기사에 의하면 윤석열 후보 지지는 46%, 이재명 후보 지지는 41%로 오차범위 내로 줄었다고 보도됐습니다.

내외경제TV의 리서치뷰 조사를 인용한 기사

조선일보 27일 보도는 다음과 같이 한국갤럽의 기사를 인용해서 조사 결과를 발표했습니다. 이재명 후보 지지도는 38%, 윤석열 후보의 지지도는 37%입니다.

조선일보의 한국갤럽 여론조사 인용 보도

같은 시기에 조사된 같은수의 표본으로 조사된 내용이 이렇게 엇갈린 이유는 무얼까요? 이것은 표본의 신뢰도가 낮다는 것을 지적하지 않을 수 없습니다. 물론 설문 내용도 이유가 될 수 있겠으나 여론조사가 미신으로 흐를 가능성이 높은 것은 표본에 있습니다.

전화번호를 이용한 랜덤 취득된 50,300~60,000개의 표본은 신뢰할 수 있는 표본입니다. 그러나 정작 조사에 임한 1,000명의 표본은 편의가 포함된 것으로 그 표본이 모집단을 대표하기 어렵다는 것입니다. 그것을 증명하는 것이 위 두 여론조사 기관의 결과가 아니겠어요. 물론 두 조사 모두 오차 범위 내이기는 하지만 두 조사의 차이는 무려 6%포인트의 차가 나타나고 있습니다. 또한 우세 후보도 다르고요.

통계학에서 모집단과 표본의 관계는 모집단의 모수를 표본을 통해 추정하는 것이기에 표본을 어떻게 선정하는가는 매우 중요합니다. 선거에서 모집단을 '만 18세 이상 전국 남녀'는 유권자 전체입니다. 그런데 이것이 모집단이 되기에는 실제 선거에 참여하는 선거참여자는 다르지 않습니까? 이런 점에서는 모집단 선정에도 사실 문제가 있습니다. 그건 차치하더라도 6만명 가까운 표집된 사람들 중에서 전화로 응답이 가능해서 결과를 수집한 1,000명으로 표본을 삼는 것은 문제가 또 중첩됩니다.

여론조사가 어느 정도 여론 흐름을 잡을 수 있지만, 그 결과가 모집단을 대표한다고 보기에는 어렵다는 판단입니다. 이제 여론조사에 너무 집착할 일이 아닙니다. 여론조사는 결국 그것을 이용하려는 집단의 의도대로 활용되는 미신이라는 제 판단이 너무 나간 것일까요?

이제는 자발적으로 참여한 데이터에 기반한 데이터과학을 통한 여론의 흐름을 수집하고 분석할 시기가 됐습니다.

반응형

댓글