목록파이썬 크롤링 (8)
꿈 많은 사람의 이야기
지난 포스팅에 지진 알림을 만들어보는 대략적인 컨셉을 잡아보았습니다일단은.. 파이썬 beautifulsoup을 사용하려고 했는데 순수 beautifulsoup은 먹히지가 않았습니다.그래서 파이썬 뷰티플수프와 셀레니움을 함께 이용했습니다아.. 속도가 좀 많이 느리네요 그래서아무튼 대략적인 프로그램은 완성되었습니다 ㅎㅎ 게시글을 가져오면 저 위의 키워드와 매칭을 해봅니다저 키워드가 있으면예를 들어 ( 방금 포항에서 지진이 일어났어)(경주인데 흔들린 것 같은데?)등의 흔들, 지진 등의 키워드가 속해져 있으면 지진이 일어났다고 가정을 하면서 진행됩니다 그리고 시간은 1시간 30분으로 잡았습니다지진이 일어나도 생각보다 많이 글이 안올라오더군요이게 지진의 강도가 쎄면 많이 올라오는데, 약하면 많이 올라오지 않아서 ..
지난 포스팅에 파이썬과 텔레그램을 연동해보았습니다 이번 포스팅은 조~~~~~~~~~~~금 더 심화된? 소스를 추가했는데요 만약 사용자 입력값이 naver 이면 네이버 실시간 검색을 크롤링해서 가지고 와 뿌려주는 것을 해보겠습니다 소스를 살짝 바꾸었습니다bot.sendMessage()를 출력하면 JSON 형식의 데이터가 있는데요거기서 text가 사용자가 입력한 text값입니다. 그래서 해당 text를 가지고 와서 비교를 합니다.naver 이니? 라고요.그러면 네이버 실시간 검색어 순위를 크롤링 합니다 몇 위 인지랑 해당 순위가 무슨 데이터인지 뿌려줍니다. 네이버를 입력해보죠! 박상기, 가상화폐 거래소, 가상화폐 거래소 폐쇄, 제주공항, 청와대 국민청원, 김동률, 강소라, 세븐틴 등이 현재 올라와있네요 ㅎㅎ..
안녕하세요~ 오늘도 취업을 위해 열심히 데이터 분석을 하고 있는 사람입니다 오늘은 지니 차트에서 11월 중 가장 많이 나온 가수를 뽑아내려고 해요~ 순위 50개 중 가장 가수 이름 또는 그룹 이름이 가장 많이 나온 것을 순서대로 뽑아내려고 합니다 지니 차트를 타겟으로 진행했어요 지니 차트를 보면 해당 날짜별로 차트가 나오고 있습니다 저 url을 이제 조작하면 11월달의 특정 '일'을 가지고 차트를 크롤링 할 수 있죠 그리고 가수 명이 써져 있는 곳은 a태그의 artist ellipsis라는 클래스입니다 이 부분을 타겟으로 크롤링하면 되겠네요 크롤링을 진행합니다 지니 차트 위에 url 부분을 가지고 옵니다. 그리고 ymd= 부분 즉 데이터 부분을 date라는 변수로 두고요 1~30일까지 데이트 값을 변경하..
안녕하세요~ 이번 포스팅은 여성분들이 관심이 많은 립스틱에 대한 조사입니다~ 저는 뭐 남자라서 립스틱 종류 이런건 알지 못하지만요 ㅎㅎ 그냥 간단하게 어떤 브랜드가 인기가 많은지 파악해보려고 합니다~ (취업이나 해야하는데 이런거 분석하면서 잘 놀고 있습니다 ㅠㅠ) 300순위를 분석을 했어요~ 300순위 안에 어떤 브랜드가 많이 들어가 있는지 보려고 합니다 참고 사이트는 찾고 또 찾다가 파우더룸이라는 사이트를 알게 되었습니다 저는 뭐 처음 들어보는데요 많은 여성분들이 이용하고 있는 사이트라고 하네요? https://www.powderroom.co.kr/ 해당 주소를 가지고 있는 사이트입니다. 저는 여기서 립스릭 랭킹을 통해 분석해볼게요~ 저기 립스릭 랭킹이 있네요! 맥이 1순위이고 마몽드, 입생로랑 등등 ..
안녕하세요~ 이번 포스팅은 구글플레이와 아이폰 앱스토어 게임 순위를 알아보려고 합니다~ 뭐 그냥 일반적으로 사이트 같은 곳에 들어가서 확인할 수도 있지만 저는 프로그래밍 기법으로 접근하려고 합니다~ 파이썬 셀레니움을 이용할거에요 셀레니움은 웹 드라이버를 이용해서 크롤링 등의 업무를 자동화처리 할 수 있습니다 저는 게볼루션이라는 사이트를 통해서 파악했어요 게임순위를 보여주더라고요 ㅎㅎ 게볼루션 사이트를 들어가면 각 게임 순위가 나와있는데요 먼저 애플 앱스토어 게임 순위를 알아보죠 무료 인기 부분만 가져올게요~ 스누피 틀린그림 찾기부터 Getting Over it 등 다양한 게임이 있네요 그리고 모두의마블, 마이 오아시스, 대항해길 등의 게임이 있습니다 이 순위를 파악해보죠 간단하게 웹 크롤링 소스를 구성합..
요즘 취업하려고 공부를 하고 있는데요 점점 취업의 목적이 아닌 그냥 제가 하고 싶은 데이터 크롤링해서 분석하는 재미에 빠졌네요 ㅋㅋ 물론 이쪽으로 취업을 하면 좋겠지만요 ㅠㅠ 뭐 아무튼 어제 심심해서 벅스 10월 인기 차트를 긁어와서 데이터 분석을 해봤습니다. 이 데이터 분석은 10월 벅스 인기차트 top 100안에 가수 이름(또는 그룹 이름)이 몇 번 나왔는지 분석하는 것입니다! top 100에 해당되는 앨범 혹은 곡이 많이 있으면 그만큼 가수 이름이 많이 나왔겠죠? 10월 한 달 동안의 데이터를 파이썬으로 크롤링해 R로 데이터 분석을 진행해봤습니다 크롤링을 하기에 앞서 벅스 사이트에 구조를 살펴보겠습니다 chartdate로 차트 날짜를 보여줍니다 그리고 artist 클래스 안에 텍스트 값이 있네요! ..
지진이 나고 난 후 네이버 실시간 검색이 난리가 아니네요 다친 사람이 없길 바랍니다 저는 심심할 때 네이버 실시간 검색(실검)을 직접 보지 않고 만들어둔 파이썬 크롤러로 보는데요 한 번 확인해볼게요 소스 파일은 그냥 참고 해보세요 ㅎㅎㅎ 저도 그냥 막 해본거라서요 지진 후 모든 실시간 검색이 지진과 관련되어 있네요 진원지인 포항과 경북, 대구, 경주, 서울, 부산, 대전, 울산, 광주 등 거의 전국적으로 여진이 미쳤네요 사건 사고가 없길 바랍니다
파이썬의 강력함은 바로 웹 크롤링입니다 웹 크롤링을 위해 먼저 beatuifulsoup4를 설치하겠습니다! 그리고 빠른 접근성을 위해 lxml도 설치해볼게요 먼저 파이썬이 설치된 경로로 이동합니다. 내 컴퓨터 검색에서 python36 이라고 검색하면 나오게 되는데요 경로가 appdata/local/programs/python~ 이렇게 나올거에요 거기서 script 폴더로 이동합니다! 그리고 위와 같이 설치하면 됩니다 pip install beautifulsoup4 pip install lxml 이 상태에서 파이썬 코드를 짜봅시다 파이썬 코드를 짜기 전에 로또 추첨을 해주는 사이트 구조를 파악해야 해요! 로또 사이트를 들어가면 위 사진처럼 분석이 됩니다. p 태그 안에 img로 감싸져 있어요 그리고 이미지..