<aside> 🎨
서비스 UI 가안 및 유저 입출력 예시
</aside>
첫 번째, 해당 기간 동안 해당 키워드들 관련 기사들의 보도 프레임 유형 및 각 보도 프레임의 비율
두 번째, 각 보도 프레임별 주요 보도 시기의 시계열 시각화. 아래에 위치한 그래프는 여러 보도 프레임(주제) 중 특정 주제를 선택했을 때, 해당 주제의 선 그래프(line graph)만 활성화된 상태입니다.
세 번째, 각 보도 프레임별 언론사 성향별 보도율 차이. 그래프가 좌측(파란색)으로 길수록 진보 성향 언론사들에서 더 많이 보도한 주제임을, 우측(빨간색)으로 길수록 보수 성향 언론사들이 더 많이 보도했음을 의미합니다.
마지막 네 번째, 위 세 가지 지표를 종합적으로 해석하는 결과 보고서
<aside> 💡
개발 목적 및 서비스 방향성
</aside>
언더스코어는 지난 몇 년 간 클라이언트들의 요청을 바탕으로 뉴스·미디어 데이터를 활용해 다양한 분석을 진행해왔습니다. 그 주제와 분석 방식에서 차이가 있기는 하나, 가장 많은 의뢰 유형 중 하나는 특정 사안이 특정 기간 동안 언론에서 다뤄지는 방식들을 주제별로 유형화하고 그 변화 양상 및 언론사 간 차이에 대해 분석하는 것입니다. 이를 위해서는 지정된 사안들의 하위 주제 / 보도 프레임 / 기사 유형들을 명확히 파악하고, 각 유형에 대해 시계열, 혹은 언론사 정치 성향 간의 상관관계를 분석하는 접근이 필요합니다.
사드 · 한한령 · 코로나 등…빅데이터로 본 중국 / SBS
가령, 언론진흥재단 BigKinds 이슈 리포트로 발행한 <저출산 보도, 지난 5년 동안 어떻게 변화해왔을까?>에서는 저출산을 다룬 기사들로부터 다음 특징을 발견했습니다.
이와 유사한 방법론을 사용해, 저희가 노동을 주제로 20년 치 주요 언론사 데이터를 분석한 내용은 언론진흥재단 미디어연구센터에서 발간한 <노동 보도 현황과 개선 방안 연구>에 소개된 바 있습니다.
위의 두 분석이 연(year) 단위로 장기간의 데이터를 분석했다면, 미디어오늘에서 기사화된 <이태원 참사 직후 보수-진보 성향 신문 보도 달랐다>는 사고 직후 48시간 동안 발행된 기사들을 분석한 사례입니다. 분석 기간이 짧은만큼, 하위 주제(프레임)별 시계열 변화를 살피기 보다는, 언론사의 좌우 정치성향에 따라 어떠한 프레임을 더 강조했는지 비교하는데에 주목했습니다.
지금까지 소개한 분석들은 모두 공통적으로 군집화(clustering) 알고리즘을 효과적으로 활용해 유사한 내용을 다룬 기사들을 유형으로 포착하여, 하위주제·프레임들을 정확하게 찾아내는 작업에 기초합니다. 아래의 그림은 아주 깔끔하게 기사들이 세 가지로 유형화된 사례입니다만, 현실의 데이터는 이보다 훨씬 더 지저분(noisy)하며, 실제로는 동일한 주제인데 서로 다른 주제(유형)로 분할되거나, 혹은 반대로 서로 이질적인 기사들이 동일한 주제로 간주되는 오류가 발생하기 쉽습니다.
뉴스 데이터의 군집화(clustering) 적용 예시. 각 점(×)은 기사를 의미.
다행히 언더스코어는 지난 몇 년간 군집화 알고리즘을 활용한 다양한 서비스들을 개발·운영 (#1, #2, #3)하며 기술적 노하우를 축적했기에, 이러한 오류를 해소할 수 있는 다양한 방법들을 보유하고 있습니다.
또한, 기존의 군집화 알고리즘은 특정 기사들이 동일한 하위 주제(프레임)에 포함된다는 것을 알려줄 뿐, 그 주제·유형의 내용이 정성적으로 무엇인지까지 알려주지는 않기에 인간의 해석을 요구해, 자동화가 어려웠습니다. **대규모언어모델(LLM)**을 활용 시 이러한 인간의 개입을 완전히 배제할 수 있기에 분석의 속도와 객관성 향상을 모두 달성할 수 있습니다.
이러한 고민을 바탕으로 언더스코어는 유저가 관심있는 키워드와 분석 기간만 입력하면, 국내 50여개 주요 언론사들의 기사 데이터를 활용해, 하위 주제(프레임), 각 하위 주제별 주요 보도 시기 및 언론사별 정치 성향에 따른 강조 포인트 차이 등을 분석하여 단일한 웹 보고서로 제공하는 서비스를 개발 예정입니다.