목록Selenium (2)
On the journey of
크롤링의 기초 코드는 예전에 다룬 적이 있다 :) https://nowolver.tistory.com/173 [AWS 사전공인교육] 10-1.Crawling 기본코드 정리 사실 AWS 사전공인교육이 아니더라도 크롤링은 데이터 수집의 가장 대표적인 방법론으로 언급되는 만큼, 내가 보기 위해서라도 정리할 필요가 있다고 생각해 노션에 올려만 뒀던 것들과 결합해 nowolver.tistory.com 이번에는 단순히 프로그램 깔자마자 이렇게 입력하세요! 가 아니라, lambda에서 실행 가능한 Selenium 등의 버전을 맞춰서 크롤링을 진행해보고자 한다. 그러나 현실적으로는 이 방법을 사용했을 때 특정 사이트는 Timeout/크롤링, 접속 자체를 막아두는 경우가 꽤 되며, click 등 기타 사용자의 동작이 인..
사실 AWS 사전공인교육이 아니더라도 크롤링은 데이터 수집의 가장 대표적인 방법론으로 언급되는 만큼, 내가 보기 위해서라도 정리할 필요가 있다고 생각해 노션에 올려만 뒀던 것들과 결합해 작성해본다. 시험 끝나고 왔더니 죽을맛이다... BeautifulSoup 정적 페이지 크롤링 library !pip install beautifulsoup4 !pip install requests [BS4 기본 코드] import requests from bs4 import BeautifulSoup url = 'https://naver.com' response = requests.get(url) if response.status_code == 200: soup = BeautifulSoup(response.text, 'ht..