<aside> <img src="notion://custom_emoji/828992d7-684e-443b-ad78-884508d3bfb2/1d83236d-0cb1-80a3-bcd0-007aec872986" alt="notion://custom_emoji/828992d7-684e-443b-ad78-884508d3bfb2/1d83236d-0cb1-80a3-bcd0-007aec872986" width="40px" />
서비스 작동 원리 요약
</aside>
<aside> 💡
개발 목적 및 서비스 방향성
</aside>
LLM 이전 시절 등장한 기존 소셜 트렌드 분석 서비스들의 가장 큰 한계는, 이들의 서비스가 관성적인 ①언급량, ②연관 키워드, ③긍부정 분석에 머무른다는 점입니다.
언급량
연관 키워드
긍부정 분석
그러나 위의 예시들에서 볼 수 있듯, 해당 기능들은 실질적으로 특정 기업·기관과 관련해 어떠한 이슈가 발생했고, 이슈의 생산자(ex. 언론사)와 그 독자들(ex. 유저)의 특정 이슈에 대한 반응이 어떠한지 등에 대해 풍부한 정보를 제공해주지 않습니다.
LLM의 등장 이후, 이러한 소셜 버즈 분석 업체들에서 AI를 활용한 추가적인 분석 서비스를 런칭하였으나, 여러 기업 고객을 대상으로 하는 범용 서비스의 특성 상, 특정 기업에 특화된 정보를 제공해주지는 못하며, 이미 빅테크들에서 운용 중인 웹검색 연동 에이전트인 딥 리서치(Deep Research) 서비스 대비 훨씬 더 낮은 수준의 성능을 보여줍니다.
언더스코어는 일찍이 지난 2021년부터 이러한 문제 의식 하에 특정 도메인/조직에 특화된 여론 분석 서비스를 운영 중입니다. SBS를 통해 제공 중인 **정치 데이터 포털 폴리스코어(Poliscore)**가 그 예시입니다. 폴리스코어는 다음의 세 가지 기능을 제공 중입니다.
첫 번째, 상태공간모형(SSM, State Space Model)을 활용해 서로 다른 여론조사 결과를 통합하여 보여주는 여론조사 시계열 가중평균 지표
① 여론조사 통합지표
두 번째, 언급량 Top6 정치인별 이슈 요약
② 정치인별 이슈 요약
세 번째, 언론사 뉴스·유튜브 내 우호·적대 보도 비율
③ 정치인별 뉴스·유튜브 온라인 우호·적대 여론 측정
폴리스코어는 2021년 말 서비스 첫 런칭이래로 세 차례에 걸쳐 조금씩 서로 다른 기능들로 교체해 왔습니다. 가령, 아래 캡쳐에서 볼 수 있듯, 기존에는 특정 인물에 대해 댓글 여론이 어떻게 변화하는지, 동일 기사가 포털(네이버/다음) 유형에 따라 어떻게 서로 다른 정치 성향을 보이는지 등을 분석하고 시각화하기도 했습니다.
언더스코어는 일련의 서비스 운영 경험을 바탕으로 지금까지 개발한 기능들을 기업·기관 도메인에 적용하고, 신규 데이터 소스(ex. 커뮤니티)와 추가적인 분석 로직(ex. 기업 관련 홍보성 기사들 삭제, 언론 보도 및 댓글 반응 간 비교 분석 등)을 더하여 국내 기업·기관 여론 분석 서비스를 개발하고자 합니다. 서비스의 작동 로직은 다음과 같습니다.
언더스코어는 지난 해 12월부터 3시간 주기로 국내 주요 언론사의 기사들을 본문과 댓글 Top 100을 포함해 모두 적재 중입니다. (일 평균 약 4만건)
이 기사들에서 개체명인식(NER) 알고리즘으로 제목과 본문에서 기업명을 특정하여 주요 기업들을 언급한 기사만을 필터링합니다. 즉, 분석을 희망하는 기업 리스트를 고정해두고 추적하는 방식입니다. 얼핏 보면 단순한 절차로 보일 수 있으나, 현재 많은 상용 서비스들이 이를 소홀히 합니다. 가령 KB국민은행을 예시로 살펴보자면, 토스 증권 역시 KB파이낸셜그룹 페이지에서 미국 기업인 KB Home(KBH)과 한국 야구 관련 정보(KBO)를 “KB”라는 글자가 포함되었다는 이유만으로 필터링 없이 그대로 노출시키고 있습니다.
각 기업 별 기사·유튜브 텍스트 할당이 완료된 이후에는 **ELSA(개체 수준 감성 분석, Entity-level Sentiment Analysis)**를 활용해, 보다 정확한 우호·적대 여론을 측정합니다. 이는 폴리스코어(Poliscore) 서비스에서도 이미 활용된 바 있는 알고리즘입니다. 폴리스코어에서 다루는 국내 정치 뉴스의 경우, 여러 인물들(과 이들의 관계)간 관계를 다루는 정치 기사의 특성 상, 단순히 특정 텍스트가 긍정이나 부정이냐를 이분법적으로 판단하기 어렵습니다. 완전히 동일한 사안을 다룬 정치 기사가 누군가에게는 긍정적일 수도 (ex. A후보, 접전 끝에 대통령으로 당선) 있고, 반대로 또 다른 누군가에게는 부정적일 수도 (ex. B후보, 1%p 내외 차이로 낙선 후 정계 은퇴 선언) 있기 때문입니다.
이는 기업 뉴스에서도 마찬가지입니다. 그렇기에 기사에 등장한 각 인물·기업마다 하나하나, 해당 대상에게의 유불리·긍부정 여부를 판단하는 것이 중요. 위 정치 기사의 예시에서는 알고리즘이 주어진 기사의 내용을 ‘김건희’와 ‘윤석열’에게는 부정(비판)적인 것으로, ‘이재명’에게는 중립적인 것으로 판단하고 있습니다. 기업·기관 뉴스에서도 이는 동일한 방식으로 작동할 예정입니다.
이슈 요약의 경우, 언더스코어가 운영해 온 다양한 큐레이션 서비스들(#1, #2, #3)이 서로 다른 기사들을 동일 주제별로 유형화했듯, 각 기업·기관별 이슈들을 유형화하고, 이 중 각 기업에 대한 단순 홍보성 이슈들은 모두 제거합니다.
이후 각 이슈마다 다음의 세 요소를 구분하여 파악할 수 있습니다.
이러한 접근은 이슈의 공급(supply) 사이드인 언론 보도의 방향성과, 소비자·독자(demand) 사이드의 여론을 구분할 수 있다는 강점이 있습니다. 가령 지난 2021년 통신 3사의 속도 논란 사태를 돌이켜보자면, 아래와 같은 기사는 SK텔레콤 입장에서는 부정적인 언론 보도입니다.
인터넷 속도 미달 KT>LG유플>SK 순…요금감면 된다
그러나 동시에, 아래와 같은 댓글 여론은 KT/LGU+와는 다르게, SKT에 대해서는 우호적인 입장을 취한 케이스입니다. 이처럼 기사의 내용과 해당 기사에 작성된 댓글의 내용을 구분하여 각각의 여론을 측정할 필요가 있습니다.
웹 페이지 (대시보드)를 개발하여 위의 모든 요소들을 일 1회 업데이트하고, 한 주간 적재된 데이터를 클라이언트 기업·기관을 중심으로 요약·분석한 웹 보고서를 주 1회 (매주 월요일) 발송하는 서비스가 목표입니다.