<aside> 🎯
수업 개요 및 수업 목표
</aside>
본 수업은 대학에서의 데이터 분석 수업의 두 가지 딜레마를 직시하고자 한다
그렇기에 본 수업은 도메인 상으로는 아래의 세 가지 영역을 다루는 동시에
방법론적으로는 이하 세 가지 기법들을 실습하고 학습하는데에 주목한다.
전통적으로 위의 범위를 교육하기 위해서는 최소 2-3개 정도의 강의가 필요했으나, AI의 발달 덕에 우리는 훨씬 더 많은 내용들을 빠르게 학습할 수 있기 때문이다. (물론 이를 위해서는 수강생들의 적극적인 참여가 필요하다)
또한 본 수업의 목표는 “논문 작성”에만 한정되지 않는다. 모든 학생들이 대학원에 진학하고 학계의 연구자가 되는 것을 목표로 할 필요는 없기 때문이다. 그렇기에 AI 챗봇으로부터 이미 쉽게 설명을 들을 수 있는 내용을 그대로 다루거나, 교과서에 작성된 목차 순서를 따르기보다는 “실무”에서 발생하는 핵심 문제들을 위주로 강의가 진행될 예정이다.
그러나 이러한 자유로운 구성이 절대로 통계적인 엄밀성의 부족을 의미하지 않는다. 가령, 수강생들은 본 수업을 통해 다음의 문장들을 이해할 수 있게 될 것이다.
우리가 어렸을 때부터 배워 온 평균(mean)은 회귀분석(regression)의 univariate special case이다.
회귀단절(regression discontinuity)은 사실 도구변수(Instrument Variable)와 동일한 기법이다. 그러나 도구 변수는 나쁜 접근이고, 회귀단절은 그보다는 덜 나쁘다. 결국 데이터 분석에서는 estimation보다 identification이 중요하기 때문이다.
대규모 텍스트 데이터 분석에서 분류(classification) 모델 개발은 AI를 활용하는 것이 더 저렴하고 효율적이지만, 군집화(clustering)의 경우 전통적인 방식이 불가피하다. 전자는 zero-shot capability로 해결 가능하지만, 후자는 global optimization이기에 O(n2) pairwise comparison이 필요하기 때문이다.
<aside> 📜
선수 학습 내용 및 요구사항
</aside>
<aside> 💯
평가 활동 및 항목별 비율
</aside>
<aside> 🗓️
주차별 수업 계획 (추후 조정될 수 있음)
</aside>