[서울신문×언더스코어] 윤석열 후보의 “여성가족부 폐지” 공약은 온라인 여성 혐오를 심화시켰는가?

<aside> ℹ️ 조사 개요

</aside>

Untitled

논쟁적인 사회 이슈에 대한 정치인의 편향된 발언은 사회적 소수자에 대한 차별, 혹은 혐오발언의 표출을 촉진할 가능성이 있음
물론 위의 주장은 어디까지나 가설. 개별 케이스마다 상황이 다를 것이기에, 정말 그러한지 아닌지는 반드시 데이터를 통해 확인해봐야 함.
다만 모든 ‘정치인의 발언 효과’가 데이터로 분석 가능한 것은 아님. 일반적으로 아래의 세 가지 조건을 충족해야만 우리는 **“특정 정치인의 발언이 해당 발언 소재에 대한 혐오발언을 촉진했다”**라는 결론을 도출할 수 있음.
- 발언 전후로 해당 소재와 관련해 굵직한 사건이 발생하지 않았어야 함
- 발언 이전에 혐오발언의 증가 추세가 시작되지 않았어야 함
- 혐오발언을 정확히 측정할 수 있어야 하며, 발언 전후의 차이가 통계적으로 유의미해야 함

<aside> 🗣️ 尹 후보의 “여성가족부 폐지” 페이스북 한 줄 공약은 데이터 분석 소재로 적합한가?

</aside>

윤 대통령은 후보 시절, “여성가족부 폐지” 페이스북 한 줄 공약을 2022년 1월 7일에 발표한 바 있음. 우리는 이번 섹션에서 아래의 두 가지 항목을 검증해 볼 예정
- 윤 후보의 발언 전후로 여성가족부와 관련해 중대한 정치적 사건이 발생한 바 있는가?
- 윤 후보의 발언 이전부터 온라인 뉴스 포털에서 여성 혐오발언은 원래 증가하고 있었는가?
우리는 한국언론진흥재단 BigKinds API를 활용해, 1월 7일 공약 발표 전후 한 달의 기간 동안 22개 언론사가 작성한 기사들 중 여성가족부/여성/페미니즘/미소지니/성차별/여가부/젠더/성평등의 8개 단어 중 적어도 하나를 제목에 포함한 8,866개 기사를 확보했음. 분석 결과, 아래의 그래프에서 볼 수 있듯 두 달 간의 기사들 중 70.2%가 공약 발표 직후 열흘 동안 작성되었으며 여타 기간에는 특별히 보도량이 증가하지 않았음. 즉, 윤 후보의 발언 이전에 여성가족부와 관련한 중대한 정치·사회적 사건이 발생해 분석 과정에서 소음(noise)으로 작용할 것이라고 볼 수 없었음.
그렇다면 1월 7일의 발언 이전부터 계속 여성을 대상한 혐오발언이 증가하고 있지는 않을까? 만약 그렇다면 윤 후보의 발언이 실제로는 온라인 여성 혐오를 증가시키지 않았음에도, 시간 상의 선후 관계로 인해 오인할 수도 있을 것. 이에 답하고자 우리는 빅카인즈에서 수집한 기사들 중 5,500건을 무작위 추출 후, 이 중 네이버나 다음 둘 중 한 곳의 댓글이 최소 5개 이상인 뉴스 2,441건의 순공감순 상위 인기 댓글들 79,058건을 수집함.

분석 결과, 위의 그래프에서도 확인할 수 있듯 발언 한 달 전에 기사(article) 단위에서의 유의미한 혐오발언 증가 추세는 관찰되지 않았음 (p-value 0.500)
유저(user) 단위에서는 어떨까? 언더스코어가 추적 조사 중인 네이버·다음 유저 패널 2,995명의 혐오발언 작성 추세를 분석한 결과, 발언 한 달 전 동안 유저(user) 단위에서 여성 혐오발언은 오히려 감소 추세에 있었음 (p-value<0.001)
정리하자면, 아래의 조건을 충족하기에 우리는 윤 후보의 1월 7일 여가부 폐지 공약 발표의 전후 효과를 측정하는데에 통계적 문제가 없을 것이라고 판단함
- 윤 후보의 발언 이외에는 12월부터 2월 사이에 여성가족부와 관련해 특별한 정치·사회적 사건이 발생하지 않았음
- 윤 후보의 발언 이전에 온라인 뉴스 포털에서 여성 혐오발언은 기사(article) 수준에서는 특별한 경향성이 관찰되지 않았으며 유저(user) 수준에서는 오히려 감소 추세였음

<aside> 😡 혐오발언의 강도는 어떻게 측정했는가?

</aside>

혐오발언은 HateScore 분류 모델을 활용함. 주어진 온라인 댓글이 여성/성소수자/남성/인종/지역/종교/연령/기타혐오/단순악플/일반댓글의 10가지 카테고리에 속할 각각의 확률을 계산할 수 있음 (분류 정확도 LRAP 0.919) 자세한 내용은 아래 링크들 참조

[국문요약] Korean Online Hate Speech Dataset for Multilabel Classification (Kang, TaeYoung, et al., 2022)

https://github.com/sgunderscore/hatescore-korean-hate-speech/

Korean Online Hate Speech Dataset for Multilabel Classification: How Can Social Science Improve Dataset on Hate Speech?
문장 분류 예시는 아래와 같음.

<aside> 🗞️ 기사(article) 단위 데이터 분석

</aside>

여성가족부 및 여성 의제를 소재로 한 뉴스 2,441건의 순공감순 인기 댓글들 79,058건을 분석한 결과, 발언 이전 한 달간의 평균 여성 혐오발언 비율이 11.4%였지만 발언 이후는 17.9%로 상승함 (p-value <0.001)
자연스레 윤 후보의 발언이 사람들의 전반적인 온라인 공격성을 높인 것이 아니냐고 반론을 제기할 수도 있을 것. 다행히 HateScore 모델은 혐오발언에 해당되지 않는 단순 악플 역시 판별할 수 있으며, 분석 결과 이는 오히려 9.5%에서 8.5%로 소폭 감소했음. (p-value <0.001) 즉, 악플이 전반적으로 증가한 것이 아니라, 여성을 겨냥한 혐오발언만 특별히 늘어났음.