07 | Machine Learning

강의 소개

머신러닝은 기계와 컴퓨터가 기존 데이터를 학습하여 새로운 데이터를 예측하도록 가르치는 분야입니다. 가령 스팸 메일과 일반 메일을 구분해 둔 데이터가 있다면, 이 이메일에 포함된 단어들을 학습하여, 새로운 이메일이 왔을 때 단어들을 보고 이 이메일이 스팸인지 아닌지를 자동으로 판단할 수 있을 것입니다. 이 과정에서는 Python을 사용하여 머신러닝의 필수 구성 요소인 지도 학습을 수행하는 방법을 배웁니다. 실제 데이터 세트를 사용하면서 예측 모델을 구축하고, 매개 변수를 조정하고, 데이터를 얼마나 잘 다룰수 있을지 결정하는 방법을 배우게 됩니다. 가장 인기 있고 사용자 친화적인 Python 용 라이브러리 중 하나 인 scikit-learn을 사용하게 됩니다.

강의 시간 및 장소

11월 20일 (오후 3:00 ~ 6:00)
온라인 강의: 줌링크는 수강신청한 이메일로 발송 예정

강의 내용 및 자료

Session Description Time
Session 1 분류
  • 분류 문제를 소개하고 지도 학습 기술을 사용하여 문제를 해결하는 방법을 배웁니다. 기본적인 EDA(탐색적 데이터 분석)와 k-nearest neighbor 방법을 사용합니다. 실습 예시는 다음과 같습니다. 정치인들 활동 내역이 담긴 데이터 세트에 적용하여 투표 기록에 따라 미국 의원의 정당 소속을 분류하는 법을 실습합니다.
오후 3:00 ~ 4:00
Session 2 회귀분석
  • 앞 세션의 분류는 정치인의 데이터를 가지고, 어떤 정당에 속하는지 참/거짓 혹은 몇 개의 카테고리로 분류하는 방법을 다루었습니다. 회귀분석은 결과가 카테고리로 나타나는 것이 아니라 수치로 나타납니다. 선형회귀 방법과 Cross-validation 방법을 학습니다. 공개된 gap-minder 데이터세트를 가지고 예측하는 모델을 작성합니다.
오후 4:00 ~ 5:00
Session 3 모델 평가 및 전처리
  • 기본적인 분류 및 회귀 분석 모델을 작성하였다면, 작성된 모델이 얼마나 잘 동작하는 것인지 판단하는 것이 필요합니다. 이 모델을 평가하는 방법과 모델을 조정하여 더 좋은 모델로 만드는 방법을 학습니다. Logistic regression과 ROC커브를 활용한 방법을 실습합니다.
  • Missing 데이터가 있거나 정리가 되지 않은 데이터 처리법을 설명합니다. 잘 정제된 데이터가 아닌, 실제로 수집된 정리되지 않은 데이터를 전처리하여, 분석이 가능한 데이터로 만드는 방법을 익혀 실제 연구에 사용할 수 있도록 돕는 테크닉을 학습합니다.
오후 5:00 ~ 6:00

강의자료: 강의 슬라이드, 데이터셋

사전 준비물

  • 본 강의는 Google Colab을 이용하여 진행됩니다. 본인의 컴퓨터에 파이썬을 설치할 필요는 없습니다. 기본적인 Google Colab에 대해 학습하고 싶다면 다음의 주소를 방문해 주세요. https://colab.research.google.com/
  • Google Colab의 기본 설정은 다음의 링크를 참고하세요. "환경 세팅" 부분만 따라서 기본적인 세팅을 마치면 바로 파이썬을 쓸수 있습니다. https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/

강의 등록

본 강의를 수강하기 위해서는 수강신청을 해야 합니다. 아래의 주소를 방문하여 수강신청 양식을 작성해주세요.
>   수강신청 링크




강사 소개

오종환
- 서울대학교 사회과학대학 강사: 언론정보학과 ‘미래뉴스실습2’와 연합전공 정보문화학 ‘정보문화기술입문’ 강의를 하고 있습니다.
- 서울대학교 hci+d lab. 융합과학기술대학원 박사과정: 소셜 컴퓨팅, 데이터 저널리즘과 관련된 연구를 진행해오고 있습니다.




질문 및 토론