[시사기획 창 × 언더스코어] 2021~2025 국내 주요 웹 서비스 혐오 표현 분석 : 네이버 뉴스, 유튜브, 디시인사이드, 에펨코리아

<aside> 🎯

분석의 목적

</aside>

혐오발언의 기원만을 강조하는 일각의 접근은 **혐오발언의 동학(dynamics)**을 놓치기 매우 쉽다. 혐오발언의 대상은 고정되어 있지 않으며, 한 시기에 지배적이었던 혐오의 논리가 이후에 지속되지 않는 경우도 많기 때문이다.
게다가 기원적 접근은 논리적 엄밀성을 누락하기 쉽다. 가령 **“일베적 사고가 아직 한국 사회(의 온라인 혐오 지형)를 지배하고 있다”**라는 주장은 다음 중 정확히 무엇을 주장하는 것인지 확실하지 않다.
- 일베에서 주로 다뤄져 온 지역(ex. 호남) 혐오가 여전히 다른 커뮤니티에서 주를 이룬다는 것인가? → 그러나 현재의 2030 청년들 중 지역 혐오에 기성세대와 유사한 의견을 갖는 비율은 너무 낮지 않은가?
- 아니면 일베에서 나타난 특정 외집단(outgroup)을 악마화하는 양태가 현대에도 지속되고 있음을 의미하는가? → 그러나 이는 일베만의 특징이 아니라 혐오(hatred) 자체의 본질적인 정의 아닌가?
- 최근의 온라인 혐오의 기원이 일베이기에 그 중요성이 있다는 것인가? → 왜 반드시 혐오의 기원이 “일베”여야하는가? 일베 역시 그 이전부터 존재하던 웃대·디시와 같은 커뮤의 연장선 상에서 탄생한 곳이 아닌가? 특별히 일베에 가중치를 더 두어야 할 이유가 무엇인가?

따라서 본 분석에서는 국내 온라인 여론을 형성하는 주요 웹 서비스 네 곳 (네이버 뉴스, 유튜브, 에펨코리아, 디시인사이드)을 바탕으로 혐오발언의 유형 및 그 구체적인 내용에 관한 정량·정성 분석을 수행했다. 구체적으로는 각 서비스의 컨텐츠(기사, 영상, 게시물)별 상위 댓글 100개를 수집한 후, 언더스코어가 개발한 혐오 표현 분류 모델인 HateScore를 활용해 이들을 분류했다.

문장	여성	성소수자	남성	인종	지역	종교	연령
여자는 집에서 애나 봐라	0.86	0.01	0.03	0.03	0.01	0.01	0.01
좆족은 21세기의 홍어다	0.03	0.02	0.03	0.68	0.89	0.04	0.03
너는 전라도 사람이니?	0.00	0.00	0.00	0.00	0.01	0.00	0.00
상폐 한남들 다 재기하라고	0.09	0.02	0.88	0.05	0.05	0.04	0.55
도심에서 변태성욕 축제라니 말세	0.06	0.79	0.02	0.01	0.13	0.01	0.01
쉰내나는 태극기들 틀니 압수	0.07	0.03	0.06	0.09	0.03	0.05	0.94
개독이나 짱깨나 거기서 거기	0.05	0.03	0.02	0.84	0.09	0.92	0.05
저 친구는 필리핀 출신이다	0.00	0.00	0.00	0.01	0.00	0.00	0.00
쿵쾅이들도 필리핀 그지는 싫지?	0.74	0.01	0.04	0.71	0.02	0.01	0.01

HateScore는 약 3.6만건의 온라인 댓글을 학습한 언어 모델로, 주어진 텍스트가 여성 / 성소수자 / 남성 / 인종 / 지역 / 종교 / 연령 / 기타 혐오 / 단순 악플 / 일반 댓글의 10가지 카테고리 중 어디에 속하는지 그 확률을 계산할 수 있다. 단순히 “악플이다(1) vs 아니다(0)”로 이분법적으로 판단하는 통상적인 언어 모델들과 달리, 해당 텍스트에 등장한 모든 유형의 혐오적 성격을 **다중 분류(multi-label classification)**할 수 있다는 것이 가장 큰 장점이다. 본 모델의 분류 정확도는 LRAP 0.919이며, 알고리즘의 개발 방식 및 작동 원리에 대한 자세한 내용은 아래 링크들에서 확인 가능하다.

[국문요약] Korean Online Hate Speech Dataset for Multilabel Classification (Kang, TaeYoung, et al., 2022)

Korean Online Hate Speech Dataset for Multilabel Classification: How Can Social Science Improve Dataset on Hate Speech?

<aside> 💽

데이터 수집 개요

</aside>

서비스명	수집 대상	수집 기간	게시물 수	댓글 수
네이버 뉴스	15개 주요 언론사 일자별 랭킹 뉴스 Top 15	2020.11.09. - 2025.10.05.	741,908건	38,782,129건
유튜브	뉴스·정치 영상 일자별 랭킹 영상 Top 15	2021.01.01. - 2025.10.06.	18,938건	1,852,691건
에펨코리아	정치·시사 부문 인기글 게시판	2023.01.10. - 2025.10.05.	198,630건	5,611,091건
디시인사이드	실시간 베스트 갤러리	2021.04.16. - 2025.10.05.	339,418건	27,340,486건

네이버 뉴스 주요 언론사 15곳(JTBC, KBS, MBC, SBS, TV조선, YTN, 경향신문, 국민일보, 뉴스1, 뉴시스, 데일리안, 동아일보, 매경이코노미, 매일경제, 매일신문, 머니S, 머니투데이, 문화일보, 서울신문, 세계일보, 시사IN, 연합뉴스, 연합뉴스TV, 오마이뉴스, 이데일리, 조선일보, 주간경향, 주간동아, 주간조선, 중앙일보, 채널A, 프레시안, 한겨레, 한겨레21, 한국경제, 한국일보)의 일자별 랭킹뉴스 중 Top 15에 해당되는 기사들을 전부 수집한 후, 각 기사마다 순공감순 상위 댓글 100개를 수집
유튜브

국가·주제별 유튜브 영상 조회수 순위를 제공하는 서비스인 PLAYBOARD를 활용해 일자별 랭킹 영상 Top 15에 해당하는 영상들을 전부 수집한 후, 각 영상마다 유튜브 기본 정렬 기준 상위 댓글 100개를 수집
에펨코리아 (펨코)

에펨코리아의 정치·시사 부문 인기글 최신 1만 페이지의 게시물들을 전부 수집한 후, 각 게시물마다 작성 시점 최신 순 상위 댓글 (최대) 100개를 수집 (에펨코리아 측은 각 게시판별로 1만 페이지까지만의 게시물을 제공하기에 해당 범위가 수집 가능한 최대치)
디시인사이드

여러 갤러리들이 공존하는 디시인사이드 내에서 운영진이 선정한 인기글들의 모음인 실시간 베스트 갤러리 (실베갤) 의 모든 게시물들을 수집 후, 각 게시물마다 작성 시점 최신 순 상위 댓글 100개를 수집. 실베갤의 경우 여타 커뮤니티의 인기글 게시판과 달리 운영진의 판단이 개입하기에 모든 갤러리들 중 가장 대표성 있게 관심도가 높은 ‘정확한 의미의’ 인기글 모음이라고 볼 수 없기는 하나, 기본적으로 디시인사이드 각 갤러리들마다 이질성이 크기에 단일한 채널을 하나만 선정할 경우, 실베갤을 선택하는 것이 합리적이라고 판단했음. (실베갤 자체의 한계에 대해서는 앞서 링크한 실베갤 관련 나무위키 문서를 참조할 것)

네이버 뉴스

</aside>

HateScore 모델을 통해 네이버 뉴스 댓글 데이터를 분석한 결과, 단순 악플 여부와는 무관하게 혐오 표현으로 간주되는 댓글의 비율은 **전체의 6.7%**로 나타났다.
이 때, 구체적인 혐오 표현 유형에 대해 살펴보기에 앞서, 네이버 뉴스 댓글란에 탑재되어 있는 클린봇에 대해 살펴볼 필요가 있다.

네이버 뉴스 측에 따르면 클린봇은 뉴스 악플들을 학습해 개발되었으며, 2019년 4월 처음 등장한 이후 지속적인 모델 고도화를 통해 문장 전체 맥락을 고려하여 모욕적 표현과 무례한 댓글까지 탐지한다. 그렇다면 과연 네이버 뉴스 측에서 도입한 자체 알고리즘은 충분히 혐오표현을 잘 분류하고 있을까?
하단의 그래프는 HateScore가 혐오표현이라고 분류한 댓글들 중 네이버 클린봇이 차단에 성공한 비율을 시각화한 것으로, 그 성공률은 0.71%에 불과했다.

2022년 11월 17일 이후로 기존에 약 0.43%에 불과했단 차단 성공률이 0.88%로 두 배 가량 증가한 것은 해당 시점에 클린봇 고도화가 이루어졌기 때문인 것으로 추정된다. 물론 이러한 개선에도 불구하고 절대값 기준으로는 99% 이상을 현재 네이버의 알고리즘이 놓치고 있음을 의미한다.

좀 더 상세한 분석을 위해 오분류 유형을 분할표(contingency table / confusion matrix) 형식으로 정리하면 다음과 같다.

	네이버 클린봇이 통과	네이버 클린봇이 검출	합계
HateScore 기준 문제 없는 발언	34,284,365	21,771	34,306,136
HateScore 기준 혐오표현	2,383,069	17,055	2,400,124
합계	36,667,434	38,826	36,706,260

위 표를 해석해보자면 위음성률(false negative rate), 즉 **실제로 혐오 표현인데도 네이버의 클린봇이 이를 누락하고 있을 확률은 99.29%**이며 반대로 별 문제가 없는데도 클릿봇이 차단할 확률인 위양성률(false positive rate)은 0.063%이다. 이는 단순 모욕·욕설을 넘어선 (사회적) 집단에 대한 비하와 조롱 댓글들 중 대다수가 국내 1위 포털에서 유저들에게 그대로 노출되고 있음을 보여준다.

물론 이 때의 위음성과 위양성 개념은 어디까지나 언더스코어가 개발한 HateScore 알고리즘의 분류 결과를 참값(true value)로 간주했을 때의 이야기이다. HateScore 역시 네이버의 클린봇과 마찬가지로 또 하나의 (다만 훨씬 더 높은 정확도의) 알고리즘에 불과하기에 이러한 단순 비교는 신중해야 하는 것이 사실이다. 특히 HateScore는 일반 대중들의 의견보다는 좀 더 엄격한 방식으로 혐오표현 여부를 판별하기에 전국민 대상의 서비스인 네이버 뉴스와 비교했을 때에는 차이가 있을 수 있기 때문이다. 그럼에도 아래의 위음성/위양성 예시들에서 볼 수 있듯, 전반적인 수준에서 **“네이버 클린봇이 혐오표현을 누락하지 않을 확률은 5%도 채 되지 않는다”**정도로 여유있게 해석하는 것이 큰 무리는 아닐 것이다.

네이버 클린봇 위음성 (False Negative), 즉 클린봇이 차단해야 함에도 놓쳐버린 댓글들
...경상북도.....대구경북........경상북도 지사....다운말.......이철우 다운말 ........역시.....조~~ 같은 경상북도~~~~~
나왔다 여성단체..ㄷㄷㄷ 해줘~해줘~ 그딴거 몰라 그냥 해줘~
술이나 말통으로 사다줘라. 약주? 웃기고 있다. 경상도
간단합니다. 부자남성들은 결혼상대로 20대랑 하려 하지 30대부터는 돈아까워서 안만납니다. 연애인이면 모를까 ㅋ 그러니 일반30대 여성들은 얼굴에 투자 안해도됩니다. 백날 운동해보세요. 나이를 이기진 못합니다. 그러니 20대초반에 잘가꿔서 일찍 부자만나서 결혼하시길 권장드려요. 30대되서 주제파악 못하고 고르다가 애못낳는 여성 됩니다. 그땐 배나온 아저씨나 대머리랑 결혼하는거죠 . 혹시 그때도 결혼 못한다면 안타깝지만....아시죠?ㅋ
뭐 좀 시키려고 하면 남자한테 의지나하고, 한마디 하면 울고 n 야근은 못하겠고 힘들다 뭐다 말 많고, 힘든거는 남자직원한테 미루고n 솔직히 기업체 사장이 뭐가 아쉬워서 여자를 쓰냐???
역시 짜장의 허세허풍은 세계제일. 짜장이 짜장했네~
급속히 중국화 되고있는 지금 대한민국을 보면, 하루속히 조선족, 화교, 중공인들에게 부여되고 있는 수많은 혜택들을 없애야 합니다. 리짜이밍 대통령되면 대한민국은 바로 홍콩, 베네수엘라화가 됩니다. 어떻게 얻은 자유입니까?? 철저히 반중 하지않으면 우리 후세들은 사회주의 국가에서 살게됩니다.
과연 중국 때놈 같구나! 아전인수에 모든 것이 자기들 것이라는 놈들...
건방진 짱게
아시아인한텐 최악이란거다 밑에 댓글에서와 같이 아시아인은 췌장에 취약한데 체중감량하겠다고 위고비 투여하다가 췌장 골로간다.췌장염 췌장암 이건 검진도 힘들어 답도 없는데 아시아인이 정말 취약함 운동하고 식단관리해서 건강하게 빼라 제발 비싸게 저런데다가 돈주고 제 건강 깎아먹으면서 체중감량 하지말고 그리고 저거 중단하는 즉시 요요온다

네이버 클린봇 위양성 (False Positive), 즉 클린봇이 실수로 차단해버린 댓글들 예시
미국이 충격에 빠졌다? 아무도 몰라 이런기사 . 미국은 로컬 중심이라 하튼 그런게 있어. 이해를 못하지 . 기레기들은. 뭐만 하면 미국국민이 충격. 전혀 이런기사 몰라.
여성혐오..남성혐오 성별 갈라치기는 그만하자 좀 쟤도 혐오충 세뇌된듯..
근데 이거 진지하게 업주들끼리 짬짜미하면 고객들 첨엔 ㅈ같아도 배민 엿맥일수있지않나
쌩 양아치 양치기 럼프
하이에나가 따로 없네..근데 여태 왜 그리 잠자코 있었대?...백종원보다 너희가 더 더럽다 옐로 언론놈들아
나라개판만들고 저짓을하고 있으니 더러운나라
하는짓거리가 양아치.윤석렬하고 많이 닮았네
1찍 극좌들 발작이 만선이네
기회주의자 찌그러져있어
나라개판만들고 저짓을하고 있으니 더러운나라

그렇다면 이제 HateScore 알고리즘의 강점을 살려 구체적으로 네이버 내에서 혐오 댓글의 비율이 얼마나 되는지 살펴보자. 아래는 각 일자별(daily)로 7가지 혐오 표현의 분류 확률값 평균을 기록한 결과이다. 본 보고서의 서두에 서술한 바와 같이 HateScore는 다중 레이블로 주어진 텍스트를 분류하기에, 댓글 분류값의 총합이 반드시 100%는 아니다. 그렇기에 모든 선 그래프(line graph)를 합쳐서 해석하는 것은 곤란하며, 각각의 선 그래프를 독립적으로 해석해야 한다. 가령 아래 그래프에서 2022년 1분기 경 인종·국적 혐오표현 비율이 7% 가량을 기록한 시점에서 각 선 그래프들을 단순히 합하면 15%가 넘는데, 이를 통해 네이버 댓글들 중 상당수가 혐오표현이라는 해석은 올바르지 않다. 해당 데이터에서 발견되는 특징은 다음과 같다.
- 약 5년의 기간 동안 인종 차별 댓글이 일관되게 가장 높은 비율을 차지. 전체 기간 동안의 유의미한 시계열적 패턴은 없으나, 최근 6개월 간은 증가 추세
- 여성 혐오 표현은 2위를 차지했으나 최근 1년 사이에 그 비율이 급락
- 2023년 하반기에는 지역 차별 발언이 일시적으로 급증하는 경향이 나타났으며 일관되게 2위 수준의 언급량을 보이던 여성 혐오 표현을 한 동안 추월. 2025년 초에도 일시적으로 이와 동일한 양상이 나타남.
- 종교 관련 혐오 표현은 그 기본적인 비율은 매우 낮으나, 최근 1년 간 증가 추세에 있는 점이 인상적. 혐오 표현 비율 3위인 지역 차별에 유사한 수준에 근접해가는 중.
최근 30일 간의 데이터에 한정해서 집계하면 인종 차별 댓글의 높은 비율이 보다 명확하게 체감되는데, 그 비율은 5.3%로, 2위인 여성 혐오 표현 (2.2%)의 2.4배에 달하는 수치이다.