02 | Data Crawling

강의 소개

웹이나 API를 통해 제공되는 데이터를 Python을 이용하여 크롤링(프로그램을 이용해 자동으로 웹에 접근하는 기술)할 수 있는 방법에 대해 소개합니다. Social Computing 분야는 웹 상에서 일어나는 모든 사회과학적 이슈에 대해 연구하는 분야이며, 가장 첫 단계는 웹에서 데이터를 수집하는 일입니다. 모으고자 하는 데이터(예: 소셜 미디어 데이터, 기사와 댓글, 상품 평점 등)를 웹 브라우저를 통해 사람의 손으로 일일히 모으지 않고 crawler를 제작하여 수십만 개 이상 단위의 데이터도 손쉽게 수집하는 것을 목표로 합니다.

강의 시간 및 장소

11월 5일 (오후 3:00 ~ 6:00)
온라인 강의: 줌 링크

강의 내용 및 자료

Session Description Time
Session 1 BeautifulSoup을 이용한 Website Crawling
강의자료 1: 링크
오후 3:00 ~ 4:00
Session 2 API를 사용한 Data Crawling
강의자료 2: 링크
오후 4:00 ~ 5:00
Session 3 Scraping Tools
강의자료 3: 링크
오후 5:00 ~ 6:00

사전 준비물

  • 본 강의는 Google Colab을 이용하여 진행됩니다. 본인의 컴퓨터에 파이썬을 설치할 필요는 없습니다. 기본적인 Google Colab에 대해 학습하고 싶다면 다음의 주소를 방문해 주세요. https://colab.research.google.com/
  • Google Colab의 기본 설정은 다음의 링크를 참고하세요. "환경 세팅" 부분만 따라서 기본적인 세팅을 마치면 바로 파이썬을 쓸수 있습니다. https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/
  • 만약 본인의 컴퓨터를 활용한다면 Python 3.6 이상의 버전의 설치가 필요합니다.
  • 세션 3의 경우 Google Colab에서 진행할 수 없으므로, 참여하실 경우 본인의 컴퓨터에 직접 Python을 설치하셔서 코드가 동작하는지 확인해 주시기 바랍니다.

수강 대상

  • Python의 기본 문법을 다루지 않습니다. 기초 Python 세션을 학습하거나 코딩 경험이 어느 정도 있는 사람이 수강하기를 권장합니다.
  • 수집하고 싶은 데이터가 있는 경우, 의견을 수렴하여 실제 세션에 반영할 수 있습니다.

강의 등록

본 강의를 수강하기 위해서는 수강신청을 해야 합니다. 아래의 주소를 방문하여 수강신청 양식을 작성해주세요.
>   수강신청 링크




강사 소개

은진수
- 서울대학교 융합과학기술대학원 석박통합과정 (hci+d lab)
- 소셜 컴퓨팅, 정보 시각화, 로봇 저널리즘 분야를 주로 연구하고 있습니다.



질문 및 토론