03 | Data Crawling
강의 소개
웹이나 API를 통해 제공되는 데이터를 Python을 이용하여 크롤링(프로그램을 이용해 자동으로 웹에 접근하는 기술)할 수 있는 방법에 대해 소개합니다. Social Computing 분야에서는 웹 상에서 일어나는 모든 사회과학적 이슈에 대해 연구하는 분야이며, 가장 첫 단계는 웹에서 데이터를 수집하는 일입니다. 모으고자 하는 데이터(예: 소셜 미디어 데이터, 기사와 댓글, 상품 평점 등)를 웹 브라우저를 통해 사람의 손으로 일일히 모으지 않고 crawler를 제작하여 만~10만 이상 단위의 데이터도 손쉽게 수집하는 것을 목표로 합니다.
강의 시간 및 장소
10월 23일 (오후 3:00 ~ 6:00)
온라인 강의: 줌링크는 수강신청한 이메일로 발송 예정
강의 내용 및 자료
Session | Description | Time |
---|---|---|
Session 1 | BeautifulSoup을 이용한 Website Crawling | 오후 3:00 ~ 4:00 |
Session 2 | API를 사용한 Data Crawling | 오후 4:00 ~ 5:00 |
Session 3 | Scraping Tools | 오후 5:00 ~ 6:00 |
강의자료: https://www.notion.so/Data-Crawling-2ffc28aadcd84ad0a561c348253d1143
사전 준비물
- 본 강의는 Google Colab을 이용하여 진행됩니다. 본인의 컴퓨터에 파이썬을 설치할 필요는 없습니다. 기본적인 Google Colab에 대해 학습하고 싶다면 다음의 주소를 방문해 주세요. https://colab.research.google.com/
- Google Colab의 기본 설정은 다음의 링크를 참고하세요. "환경 세팅" 부분만 따라서 기본적인 세팅을 마치면 바로 파이썬을 쓸수 있습니다. https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/
- 만약 본인의 컴퓨터를 활용한다면 Python 3.6 아싱의 버전의 설치가 필요합니다.
- 세션 3의 경우 Google Colab에서 진행할 수 없으므로, 참여하실 경우 본인의 컴퓨터에 직접 Python을 설치하셔서 코드가 동작을 확인해 주시기 바랍니다.
수강 대상
- Python의 기본 문법을 다루지 않습니다. 기초 Python 세션을 학습하거나 코딩 경험이 어느 정도 있는 사람이 수강하기를 권장합니다.
- 집하고 싶은 데이터가 있는 경우, 의견을 수렴하여 실제 세션에 반영할 수 있습니다.
강의 등록
본 강의를 수강하기 위해서는 수강신청을 해야 합니다. 아래의 주소를 방문하여 수강신청 양식을 작성해주세요.
> 수강신청 링크
강사 소개
은진수
- 서울대학교 융합과학기술대학원 석박통합과정 (hci+d lab)
- 소셜 컴퓨팅, 정보 시각화, 로봇 저널리즘 분야를 주로 연구하고 있습니다.