목록파이썬 크롤러 (3)
꿈 많은 사람의 이야기
요즘 취업하려고 공부를 하고 있는데요 점점 취업의 목적이 아닌 그냥 제가 하고 싶은 데이터 크롤링해서 분석하는 재미에 빠졌네요 ㅋㅋ 물론 이쪽으로 취업을 하면 좋겠지만요 ㅠㅠ 뭐 아무튼 어제 심심해서 벅스 10월 인기 차트를 긁어와서 데이터 분석을 해봤습니다. 이 데이터 분석은 10월 벅스 인기차트 top 100안에 가수 이름(또는 그룹 이름)이 몇 번 나왔는지 분석하는 것입니다! top 100에 해당되는 앨범 혹은 곡이 많이 있으면 그만큼 가수 이름이 많이 나왔겠죠? 10월 한 달 동안의 데이터를 파이썬으로 크롤링해 R로 데이터 분석을 진행해봤습니다 크롤링을 하기에 앞서 벅스 사이트에 구조를 살펴보겠습니다 chartdate로 차트 날짜를 보여줍니다 그리고 artist 클래스 안에 텍스트 값이 있네요! ..
지진이 나고 난 후 네이버 실시간 검색이 난리가 아니네요 다친 사람이 없길 바랍니다 저는 심심할 때 네이버 실시간 검색(실검)을 직접 보지 않고 만들어둔 파이썬 크롤러로 보는데요 한 번 확인해볼게요 소스 파일은 그냥 참고 해보세요 ㅎㅎㅎ 저도 그냥 막 해본거라서요 지진 후 모든 실시간 검색이 지진과 관련되어 있네요 진원지인 포항과 경북, 대구, 경주, 서울, 부산, 대전, 울산, 광주 등 거의 전국적으로 여진이 미쳤네요 사건 사고가 없길 바랍니다
파이썬의 강력함은 바로 웹 크롤링입니다 웹 크롤링을 위해 먼저 beatuifulsoup4를 설치하겠습니다! 그리고 빠른 접근성을 위해 lxml도 설치해볼게요 먼저 파이썬이 설치된 경로로 이동합니다. 내 컴퓨터 검색에서 python36 이라고 검색하면 나오게 되는데요 경로가 appdata/local/programs/python~ 이렇게 나올거에요 거기서 script 폴더로 이동합니다! 그리고 위와 같이 설치하면 됩니다 pip install beautifulsoup4 pip install lxml 이 상태에서 파이썬 코드를 짜봅시다 파이썬 코드를 짜기 전에 로또 추첨을 해주는 사이트 구조를 파악해야 해요! 로또 사이트를 들어가면 위 사진처럼 분석이 됩니다. p 태그 안에 img로 감싸져 있어요 그리고 이미지..