<aside> <img src="notion://custom_emoji/828992d7-684e-443b-ad78-884508d3bfb2/1d83236d-0cb1-80a3-bcd0-007aec872986" alt="notion://custom_emoji/828992d7-684e-443b-ad78-884508d3bfb2/1d83236d-0cb1-80a3-bcd0-007aec872986" width="40px" />
서비스 작동 원리 요약
</aside>
<aside> 💡
개발 목적 및 서비스 방향성
</aside>
정기적으로 서베이를 실시할 경우, 상당히 많은 비용이 소요되기 마련입니다. 연령/성별/지역에 비례해 대표성 있는 전국 단위 조사 기준으로, 메이저 조사 업체에서는 30문항 정도의 설문조사에 대해 조사 패널 1명 당 약 1만원의 비용을 청구합니다.
물론 비용 이외에도 신규로 발생한 이슈에의 대응 속도 문제 역시 있습니다. 가령, 매월 정례조사를 해오던 중, 조사 실시 사흘 후에 예상치 못했던 이슈가 새로 발생한다면, 그 여론을 파악하기 위해서 다시 여론조사를 해야만 하는 문제가 발생합니다. 물론 기술적으로는 아래와 같이 단순히 기존의 여론조사 데이터에 추가적인 변수 하나를 더 붙여주는 것에 불과합니다.
그렇기에 새로운 여론조사를 실시하는 대신, **해당 질문(이슈)에 대한 사람들의 의견을 대규모언어모델(LLM)을 통해 예측(prediction)**하는 연구가 최근 학계에서 활발하게 진행되고 있습니다. 이는 AI Augmented Survey, Silicon Sampling 등의 이름으로 불리며, 연구진에 따라 구현 방식이 조금씩 상이하기는 하나, 기본적인 로직은 아래와 같습니다.
이 때, 신규 질문과의 유사 문항들을 어떻게/어디까지 설정할지, 개별 응답자별 특성을 어떻게 기록하고 관리할지, LLM이 어떠한 정보들을 바탕으로 응답을 예측하게 할지 등이 기술력의 영역입니다.
연구들마다 차이는 있지만, 일반적으로 이러한 방식의 예측 정확도는 70~80% 정도로 나타납니다. 아직 한국 데이터로 해당 기법을 적용한 사례는 없으나, 북미·유럽에서는 본격적인 연구 결과들이 발표되고 있습니다. 예를 들어 독일에서 서베이 데이터로 사람들의 실제 정당 투표 결과와 LLM으로 예측한 결과를 비교했을 때, 아래처럼 분포가 상당히 유사하게 나타남을 확인할 수 있습니다.
대학에서 진행한 연구이다 보니 비용 이슈로 저성능 LLM인 GPT3.5를 활용한 것이 확인되지만, 예산 제약이 덜한 민간 기업인 언더스코어가 더 고성능 LLM을 활용한다면 훨씬 더 우수한 결과를 보일 것으로 예상해 볼 수 있습니다.
이처럼 LLM 기반 문항 증강을 활용해 신규 이슈 여론 예측(prediction/extrapolation)을 시스템화한다면 정기 서베이의 빈도를 낮춤으로서 조사 비용을 절감하는 동시에, 기존처럼 시간·예산 제약에 구애받지 않고 시의성 있는 여론 파악 및 인구 통계 하위 집단별 비교가 가능해집니다.