웹 크롤링
패스트캠퍼스 온라인 강의 - 올인원 패키지 : 파이썬 웹 개발
- 교내 교육 HUFS Missing Semster 진행
GitHub - hufslion9th/MissingSemester_Crawling: 2021 HUFS Missing Semester : Crawling
01. 크롤링 기초지식
Chrome 개발자 도구
- Chrome 개발자 도구에서 Element tab 을 통해 해당 웹 페이지의 HTML, CSS 코드 등을 볼 수 있다.
- HTML 태그들을 개발자 도구를 이용하여 마우스 우클릭 하여 CSS selector 또는 Xpath 를 가져올 수 있다. 이것은 후에 특정 웹 사이트에서 특정 부분의 데이터를 스크랩핑 하기 위해 사용된다.
크롤링 주의사항
- 대상 웹 페이지 조건 확인
- 특정 페이지의 도메인 뒤에 "/robots.txt"를 붙여 접속 요청을 한다면 특정 페이지 크롤링의 허용 유무에 대해 알 수 있다.
출처:
robots.txt 설정하기
- 크롤러 분류 - 상태 유무, Javascript 유무