[언더스코어 서비스 개발안] 서베이 데이터 전처리 및 분석 자동화 (2026.03. 공개 예정)

<aside> 🎨

서비스 UI 가안 및 유저 입출력 예시

</aside>

유저는 다음의 세 가지 정보를 입력값(input)으로 제공합니다.
- 원본 데이터셋 파일 : csv, xlsx, sav, dta 등의 형식을 지닌 서베이 데이터셋 원본
- 코드북 : 위 파일의 문항·선지를 구체적으로 설명한 자료
- 분석·연구 주제 : 해당 서베이를 바탕으로 알고 싶은 상세한 분석·연구 주제 내용
출력(output) 결과물 예시 :

<aside> 🤔

기획 배경 : 기존의 전통적인 사회 조사 모델의 한계

</aside>

전통적인 사회 여론조사 수행 방식은 아래와 같습니다.
- 의뢰 기관인 클라이언트가 자신의 아이디어를 전달하면, 이에 기반해 사회조사 업체가 설문지를 설계합니다.
- 의뢰자의 검수를 통과한 이후 설문지가 확정되며, 이후에 패널들을 대상으로 실제 조사가 진행됩니다. 이 패널들은 사회조사업체가 보유하고 있습니다.
- 조사가 마무리된 후, 결과 데이터셋을 바탕으로 분석 작업이 진행됩니다. 이 “분석” 작업은 앞의 “조사”와 함께 사회 여론조사의 두 축을 이루게 됩니다.
그러나 전통적인 사회조사 업체들이 사회과학 학술 연구 수준의 설문 설계 전문성이나 분석 역량을 지니지는 못했기에 이들의 강점은 패널 보유에만 제한되어 왔습니다.
실제로 이러한 이유로 인해 데이터 분석 업체인 언더스코어는 아래와 같이 제한된 방식으로만 사회 조사 업체에게 패널 조사’만’을 위탁해왔습니다.
- 우선 설문지 개발의 경우, 학술적 훈련을 받은 언더스코어의 팀원들이 최신 학술적 논의들을 반영해 (이후 분석 과정에서의 핵심 포인트를 감안하여) 문항들을 설계합니다.
- 이후 조사 업체 측에 해당 설문지의 변경 없이 그대로 시행할 것을 요구하고, 실제 조사가 마무리되면 데이터셋 파일만을 받습니다.
- (언더스코어 대비 더 낮은 수준의 분석 역량을 보유한) 조사 업체의 데이터 분석 역시 불필요하기에, 위와 같이 데이터 파일만을 수령한 이후 언더스코어 측에서 데이터 분석을 직접 진행합니다.
이처럼 ‘패널 조사 시행’ 과정만 사회 조사 업체에게 위탁하고, 나머지 설계부터 분석까지는 내부 역량을 활용하는 언더스코어의 효율적인 작업 파이프라인을 AI를 통해 재현하자는 것이 본 서비스의 기본적인 구상입니다. 작동 방식은 아래와 같습니다.
- 첫 번째, 의뢰 기관이 AI에 분석 기획안 및 조사 의도를 입력합니다.
- 두 번째, 언더스코어가 개발한 AI 모델은 입력된 클라이언트의 요청에 기반해 연관 학술 논문들을 조사합니다. 그리고 논문들을 통해 확보한 최신 설문 설계 동향에 언더스코어가 기존에 다년 간의 경험으로 확립해둔 사회 조사 설문 설계 노하우를 더하여 설문지 초안을 개발합니다.
- 세 번째, 설문지가 컨펌된 후, 클라이언트가 설정한 조사 인원 및 연령·성별·지역 비례 표집 틀을 바탕으로 언더스코어의 협력 업체에 자동으로 설문지가 이관, 자동으로 조사가 시작됩니다.
- 네 번째, 조사가 마무리되면 앞서 첫 번째 단계에 입력된 “분석 기획안 및 조사 의도“를 바탕으로 데이터 분석 보고서 초안이 도착합니다.
- 다섯 번째, 의뢰 기관에서는 이 분석 보고서 초안에 더하여 추가적으로 알고 싶은 내용들을 자유롭게 챗봇 형식으로 AI와 질의응답할 수 있습니다.

<aside> 💡

서비스 방향성 : 언더스코어의 데이터 분석 경험과 역량의 자동화

</aside>

언더스코어는 기존에 서베이 데이터를 활용해 언론사와 다양한 분석 프로젝트를 진행해왔습니다. 서베이 데이터 분석을 업으로 하던 전통적인 리서치 업체나 데이터 분석 기업, 학계의 연구자들은 많으나, 언더스코어만이 지닌 문제 의식을 바탕으로 한 연구 아이디어와 이를 실제로 구현할 수 있는 통계적 역량을 지녔던 덕분입니다. 그렇기에 지난 몇 년간 언더스코어는 클라이언트인 언론사·기업·기관들에게 양질의 분석 결과물을 제공하며 지금까지 시장에서 성공적으로 생존할 수 있었습니다.

[스프] "지하철 이용자는 전장연 시위 지지하기 어렵다" 사실일까?

[단독] 고교생 10명 중 4명 '개표 부정' 믿고 계엄엔 반대…'십대남' 현상 확인됐다 | 한국일보

[두 얼굴의 공정] 청년들에게 젠더이슈는 ‘제로섬 게임’이 됐을까? 성평등 정책의 미래는

[단독] 혐중 정서, 혐일 앞섰다… 가장 차별 느낀 건 베트남인
그러나 이러한 역량이 저희 언더스코어의 영원한 **기술적 해자(technological moat)**가 될 수는 없습니다. 사회과학적인 연구 아이디어와 시의성 있는 기획 능력은 당분간은 인간 고유의 영역이겠으나, 하루가 다르게 발전하는 AI의 흐름 속에서 통계적 분석 행위 그 자체는 결국 자동화될 것이기 때문입니다.
이에 언더스코어는 시범적으로 설문(survey) 데이터에 한정하여 전처리 → 통계적 분석 → 결과 보고서 작성의 세 단계로 이루어지는 작업을 자동화해보고자 본 서비스를 구상하게 되었습니다.
서베이 데이터 분석의 가장 큰 걸림돌 중 하나는 전처리 단계의 데이터 형식의 다양성과 불일치입니다. 동일한 설문조사라도 조사 시기, 조사 기관마다 변수명이 조금씩 달라지며, 코딩 체계도 제각각입니다. 생성AI를 활용한 전처리 자동화는 이러한 복잡성을 완전히 해결할 수 있습니다. 기존에는 연령 변수가 숫자인지 문자열인지, 리커트 척도 문항들이 각각 1점→5점과 5점→1점 순으로 방향성이 혼재되어 있다면, 어느 방향으로 재부호화(recoding)하는 것이 효율적인지를 사람이 판단해야했습니다.

그러나 AI가 자동으로 감지하고 표준화한다면, 서베이 데이터 분석에서 전체 작업의 1/3 정도를 차지하는 전처리 작업에 연구자가 얽매이지 않음으로서, 데이터 정제가 아닌 인사이트 도출에 집중할 수 있습니다. 유저 입장에서는 데이터셋 원본 파일과 이를 설명하는 코드북 두 가지만 입력하면, 추가적인 인간의 개입이 불필요해질 수 있습니다.
한편, 모든 분석가·연구자가 서베이 데이터를 받으면 가장 먼저 하는 작업은 “이 데이터의 기본적인 분포(distribution)는 어떠한가”를 파악하는 것입니다. 수십가지 문항들 중 관심 있는 연구 질문과 연관된 문항들을 최적의 형식으로 집계하는 것은 매우 간단하지만, 동시에 번거로운 작업입니다. 일부 문항들의 경우 각 선지별 응답률 집계를 정리하는 것이 효과적일 때가 있고 (ex. 정치 현안에 대한 리커트 5점 척도 문항), 반대로 평균값을 그대로 활용하는 것이 적합할 때도 있기 때문입니다. (ex. 가구 당 월 평균 소득)
가령, 아래의 기술 통계 관련 분석 결과 보고서 생성 예시에서 볼 수 있듯, 청소년 정치 성향 조사가 진행되었다면, 해당 설문지에는 연령, 성별, 거주지, 학력 정보, 종교 등 다양한 문항들이 포함되어 있겠으나, 만약 유저가 입력한 질문이 **“지난 몇 년간 이슈가 되어 왔던 ‘남녀 간 정치 성향 분화’는 10대 청소년들에게서도 나타나는가?”**라면, 이 모든 인구통계 문항들을 일일히 집계하기 보다는, 정치 현안 관련 문항들 및 성별 간 차이에만 집중할 필요가 있습니다. 본 서비스는 이러한 ‘판단’과 ‘반복적 작업’ 두 가지 모두를 자동화합니다.
물론 전문 연구자들이 서베이 분석에서 가장 많은 시간을 투자하는 부분은 **“어떤 변수들을 어떻게 조합해서 분석할 것인가”**를 고민하는 과정입니다. 청소년 정치 성향 연구에서의 남녀 간 비교 예시를 계속 들자면, 단순히 성별 차이만 보는 것이 아니라, 부모의 교육 수준, 사회경제적 지위, 종교, 학업 성취도 등 다양한 통제변수를 고려한 후에도 성별의 효과가 통계적으로 유의하게(statistically significant) 유지되는지 여부를 판단해야 합니다.

본 서비스의 LLM은 이러한 통계적 모델 설계(statistical model specification) 자체를 자동화합니다. 유저가 입력한 질문에 적합한 문항들 (ex. 부모의 교육수준, 재학중인 고등학교 유형, 모의고사 평균 등급 등)을 통제변수로 자동으로 선정하고, 필요 시 교차효과(interaction effect)와 같은 추가적인 분석을 진행할 수도 있습니다.
AI 기반 분석 도구에 대한 가장 큰 우려는 AI가 그럴듯한 숫자를 만들어내는 것입니다. 언더스코어는 이를 해결하기 위해 실제 데이터 전처리 및 분석 과정을 클라우드 상에 존재하는 독립적인 파이썬(Python) 커널에서 실행하는 방식으로 해결하고자 합니다. 이는 AI 특유의 환각(hallucination) 문제를 구조적으로 완벽하게 차단합니다.

예를 들어 “이주노동자에 대한 10대 청소년들의 인식 중 긍정 응답이 45.3%”라는 응답을 서비스가 생성했다면, 이는 LLM이 수천명의 응답 데이터 자체를 입력받아 추측한 숫자가 아닌, 실제 데이터셋을 Python 상에서 호출해 계산된 정확한 값입니다. 따라서 모든 분석 결과는 실행 로그와 함께 제공되어 재현가능성을 보장하며, 유저는 필요 시 생성된 코드를 다운로드하여 추가 분석을 이어갈 수 있습니다.
데이터 분석의 특성 상 ‘오답’은 존재하지만 ‘정답’은 존재하지 않습니다. 각 분석가들마다 나름의 주관과 방향성, 중시하는 통계적 포인트들이 서로 다르기 때문입니다. 그렇기에 본 서비스 구현의 핵심은 ‘틀린 분석을 방지하는 것’을 넘어서 언더스코어가 중시하는 통계적 관점과 데이터 분석의 스타일을 AI 내에 효과적으로 녹여내는 것에 있습니다.