<aside> 🖊️
LLM을 활용한 서베이 문항 증강
</aside>
정기적으로 서베이를 실시할 경우, 상당히 많은 비용이 소요되기 마련입니다. 연령/성별/지역에 비례해 대표성 있는 전국 단위 조사 기준으로, 메이저 조사 업체에서는 30문항 정도의 설문조사에 대해 조사 패널 1명 당 약 1만원의 비용을 청구합니다.
물론 비용 이외에도 신규로 발생한 이슈에의 대응 속도 문제 역시 있습니다. 가령, 매월 정례조사를 해오던 중, 조사 실시 사흘 후에 예상치 못했던 이슈가 새로 발생한다면, 그 여론을 파악하기 위해서 다시 여론조사를 해야만 하는 문제가 발생합니다. 물론 기술적으로는 아래와 같이 단순히 기존의 여론조사 데이터에 추가적인 변수 하나를 더 붙여주는 것에 불과합니다.
그렇기에 새로운 여론조사를 실시하는 대신, **해당 질문(이슈)에 대한 사람들의 의견을 대규모언어모델(LLM)을 통해 예측(prediction)**하는 연구가 최근 학계에서 활발하게 진행되고 있습니다. 연구진에 따라 구현 방식이 조금씩 상이하기는 하나, 기본적인 로직은 아래와 같습니다.
첫 번째, 설문의 응답자들의 특성을 데이터화한 좌표값(embedding)을 미리 계산해둡니다. 두 번째, 신규 이슈(질문)가 발생시, 기존재하는 서베이 문항·응답에서 이와 연관된 문항들을 추출합니다. 세 번째, 개발한 모델이 이 두 가지 정보를 함께 활용해 각 응답자들이 신규 이슈에 대해 어떻게 응답할지 예측합니다. 이 때, 신규 질문과의 유사 문항들을 어떻게/어디까지 설정할지, 개별 응답자별 특성을 어떻게 기록하고 관리할지, LLM이 어떠한 정보들을 바탕으로 응답을 예측하게 할지 등이 기술력의 영역입니다.
연구들마다 차이는 있지만, 일반적으로 이러한 방식의 예측 정확도는 70~80% 정도로 나타납니다. 아직 한국 데이터로 해당 기법을 적용한 사례는 없으나, 북미·유럽에서는 본격적인 연구 결과들이 발표되고 있습니다. 예를 들어 독일에서 서베이 데이터로 사람들의 실제 정당 투표 결과와 LLM으로 예측한 결과를 비교했을 때, 아래처럼 분포가 상당히 유사하게 나타남을 확인할 수 있습니다.
대학에서 진행한 연구이다 보니 비용 이슈로 저성능 LLM인 GPT3.5를 활용한 것이 확인되지만, 예산 제약이 덜한 민간 기업인 언더스코어가 더 고성능 LLM을 활용한다면 훨씬 더 우수한 결과를 보일 것으로 예상해 볼 수 있습니다.
이처럼 LLM 기반 문항 증강을 활용해 신규 이슈 여론 예측(prediction/extrapolation)을 시스템화한다면 정기 서베이의 빈도를 낮춤으로서 조사 비용을 절감하는 동시에, 기존처럼 시간·예산 제약에 구애받지 않고 시의성 있는 여론 파악 및 인구 통계 하위 집단별 비교가 가능해집니다.
<aside> 📜
서베이 데이터 분석 결과 보고서 자동화
</aside>
물론 이러한 문항 증강(augmentation)용으로 LLM을 활용하기에 앞서, 생성형 모델의보다 본질적인 수요는 서베이 데이터 자체에서 곧바로 상세한 분석 결과 보고서를 도출하는데에 있을 것입니다. 언더스코어가 개발을 앞두고 있는 서베이 데이터 분석 결과 보고서 자동화 서비스는 후술할 “데이터 저널리즘 기반의 기사 작성 자동화 솔루션 업데이트”와도 공유하는 바가 많습니다.
언더스코어의 기사 작성 자동화 솔루션 (참고 인터뷰 : 포춘코리아 AI기자 ‘필립’ 채용기 - [QUEST PIONEER] 강태영 언더스코어 대표)은 이번 2025년 1분기 이내로 업데이트를 앞두고 있습니다.
가령, 기존에 언더스코어가 포춘코리아에 제공해 온 <당신이 잠든 사이>라는 코너는 매일 수집되는 뉴스들 중 경제·기업 이슈를 소재로 한 기사들을 선별한 후, 이들을 유형화(clustering)한 다음 각 유형을 하나의 기사로 만든 결과물입니다. 이러한 로직은 기존에 언더스코어가 운영해 온 여타 큐레이션 서비스 (ex. SBS 정치데이터포털 Poliscore, SK사회적가치연구원 Global SV News 등)에도 유사하게 적용되어 있습니다.
포춘코리아 <당신이 잠든 사이>의 경우, 매일 20여개씩 기사가 자동화된다는 강점이 있으나, 활용 과정에서 몇 가지 문제를 발견했습니다. 그 중 하나는 검색엔진·포털 상에서 외신 정보의 재구성 기사인 <당신이 잠든 사이>를 “특색 없는 정보”로 간주해 상대적으로 검색·추천의 후순위로 배치되고, 결과적으로 인간 기사 대비 평균 기사보다 약 15.8% 더 낮은 트래픽 유입이 관찰되었습니다. 이에, 단순히 외신에 있는 정보만을 재구성하는 대신 새로운 데이터를 활용하여 함께 기사를 씀으로서 기사의 독창성을 높이는 방식의 모델 개편을 진행 중입니다.
기사 생성 개편안의 로직은 아래와 같이 정리할 수 있습니다. 핵심 아이디어는 이슈 클러스터가 특정된 이후, “해당 이슈가 다뤄진 기사들 원문”과 “이슈와 연관된 데이터를 분석한 보고서”를 함께 합쳐서 새로운 기사를 작성한다는 것입니다.
가령, “삼성전자의 침체”라는 이슈 토픽이 포착된다면, 데이터셋 DB 내에서 연관된 데이터셋으로 아래 데이터를 특정합니다. 기술 통계만을 활용해도 타 국가의 반도체 회사 market cap 대비 한국의 전망을 보여줄 수 있는 것은 물론, 반도체 revenue share의 시계열 분석까지 활용하면 “사이클을 감안할 때 향후 N년간 평균적으로 M% (유의수준 95%)의 하향 추세가 예상되기에 삼성전자의 전망은 더욱 밝지 않다”와 같은 내용까지 추가할 수 있습니다.
해당 기능을 구현하는데 활용된 기술들에 기반하여, 언더스코어는 ①원본 데이터셋 파일과 해당 파일의 문항·선지를 설명한 ②코드북, 분석가가 해당 서베이를 바탕으로 알고 싶은 ③분석·연구 주제의 세 가지 요소를 입력하면 그에 걸맞는 분석 결과 보고서를 작성하는 서비스를 개발하고자 합니다.
궁극적으로는 아래와 같이 언더스코어가 기존에 직접 진행해온 수준의 서베이 데이터 기반 분석을 완벽하게 자동화하는 것이 그 목적입니다.