목록크롤러 (4)
꿈 많은 사람의 이야기
가끔 웹 크롤러를 개발하다 보면 이런 상황이 있습니다. 윈도우에서 web crawler를 개발하면 당연히 화면이 있죠? 여기서 화면이라는 것은 window가 있다는 것입니다. 즉, 크롬 브라우저를 띄울 수 있고 그걸 볼 수 있습니다. 이러한 환경은 ubuntu나 centos에서도 마찬가지입니다. 하지만, 모든 환경이 다 이렇지 않습니다. linux 계열의 서버를 사용할 때 이런 window 개념이 없을 수도 있습니다. 말 그대로 kernel 상태만 주어지고 display가 없는 상태이죠 그럼 이 display가 없는 상태에서 python seleinum으로 웹 크롤러를 어떻게 개발할까요? selenium은 web browser를 화면에 띄우고 거기서 html 데이터를 가지고 옵니다. 근데 이 displa..
벌써 이것을 진행한지는 꽤 되었지만 이 블로그에는 올리지 않아서 다시 올립니다~원본 게시글은https://post.naver.com/viewer/postView.nhn?volumeNo=16628864&memberNo=34022432 여기에 올려져 있습니다~파이썬으로 텍스트 데이터를 분석하는 작업인데 소셜 네트워크 서비스(SNS) 데이터를 활용합니다 타겟 데이터는 비트코인, 이더리움 등의 암호화폐(가상화폐)로 유명한 오픈 커뮤니티인 코인판(coinpan)을 활용합니다코인판에서 나온 메디블록(mediblock) 게시글을 분석해서 메디블록과 관련된 텍스트 데이터를 분석해보려고 합니다!참고로 이 분석은 벌써 시간이 반년정도 되었습니다.지금과는 이슈가 다를 것입니다.약올림이라는 어플이 나왔을 때 했던 프로젝트고본..
어느덧 2017년이 지나가고 2018년입니다 2017년 하반기에 처음 티스토리를 시작했는데요어느덧 3~4개월 째 블로그를 꾸준히 하고 있네요 ㅎㅎ 마침 티스토리 2017 결산을 하길래 저도 해봤습니다 ㅎㅎ 먼저 제 블로그에 대한 평가네요 오.. 그런가요?? 상위 1% 부지런??왜짘ㅋㅋㅋㅋㅋ 4개월차 블로그 ㅠㅠ얼마 되지 않았습니다4년차 블로그로 성장할 때까지! 저의 대부분의 주제는 IT 인터넷입니다 ㅎㅎ맛집, 여행도 꽤나 있지만요 ㅎㅎ 저 6개 태그가 전부 IT 인터넷입니다.이렇게 보니까 글을 꽤나 많이 올렸네요..공부할 때마다 정리해서 올렸는데 ㅎㅎ 맛집도 있구요~요즘 맛집을 못가서 ㅠㅠ 그리고 요즘 가장 핫한 암호화폐(가상화폐) 정리입니다.2주? 정도 된 것 같네요 정리하기 시작한지정~말 많이 정리할..
파이썬의 강력함은 바로 웹 크롤링입니다 웹 크롤링을 위해 먼저 beatuifulsoup4를 설치하겠습니다! 그리고 빠른 접근성을 위해 lxml도 설치해볼게요 먼저 파이썬이 설치된 경로로 이동합니다. 내 컴퓨터 검색에서 python36 이라고 검색하면 나오게 되는데요 경로가 appdata/local/programs/python~ 이렇게 나올거에요 거기서 script 폴더로 이동합니다! 그리고 위와 같이 설치하면 됩니다 pip install beautifulsoup4 pip install lxml 이 상태에서 파이썬 코드를 짜봅시다 파이썬 코드를 짜기 전에 로또 추첨을 해주는 사이트 구조를 파악해야 해요! 로또 사이트를 들어가면 위 사진처럼 분석이 됩니다. p 태그 안에 img로 감싸져 있어요 그리고 이미지..