최근 지진에 대해서 계속 이슈가 나오고 있습니다
얼마전 포항에서도 지진이 터졌구요
해외에서도 대만 지진 등 지속적인 지진에 대한 이슈가 터져나오고 있습니다
그래서 공부도 해볼겸 파이썬 웹 크롤링을 이용해서 야매? 지진 알람계를 만들어 볼까 생각중입니다.
방법은 제가 지진계가 있는 것도 아니고 해서 우회적인 방법을 이용했어요
바로 지진 커뮤니티(갤러리)를 이용하는 것이죠
디시인사이드의 지진갤러리를 이용하려고 합니다
여기는 지진이 일어나면 게시글이 엄청 올라옵니다
그래서 이 게시물들을 크롤링해서 키워드 분석 후 알람을 울리게 하려는 방식으로 해보려 합니다
디씨인사이드를 사용한 이유는 가장 활발한 갤러리이기 때문입니다
다른 여타 지진 갤러리보다 여기가 제일 활발합니다
그리고 기술적인 이유도 있습니다
게시물 번호로 접근할 수 있는데요
게시물 번호로 url을 바로바로 접근해서 데이터를 가지고 올 수 있습니다
예를 들어서 387025 게시글이면 저렇게 접근할 수 있죠
page 값은 딱히 필요없더군요
그래서 디씨를 선택했습니다
이 시간값을 이용할 예정입니다.
현재 제가 실행한 프로그램 시간과 최근 20분 동안 올라온 게시글을 긁어옵니다
20분이 초과된 게시글은 긁어오지 않습니다.
그래서 긁어온 게시물에서 키워드 (예를 들어 지진, 흔들, 무섭, 철렁, 떨리다 등등)
매칭 값과 긁어온 페이지 개수를 이렇게 저렇게 확률을 짜맞추어서(아직 생각중)
어느정도 % 가 나오면 지진이 났다! 라고 알려주는거죠
위 처럼 진행할 예정입니다
페이지를 접근하고 또 접근해서 페이지에 가장 최근에 올라온 게시글 번호 값을 가져오구요
그리고 그 게시물의 시간을 비교해서 20분 이내인지 아닌지 파악합니다.
20분 이내면 키워드 매칭을 하고
다음 게시글로 이동하고 시간 비교하고 20분 이내면 키워드 매칭 아니면 종료 이런식으로 하는 겁니다
아무래도 야매다 보니 ㅎㅎ..
그냥 개인적인 취미로 만드려고 합니다
근데 문제점이 파이썬 beatifulsoup를 그냥 이용해선 크롤링이 안되네요
셀레니움을 이용하면 되는데..
실력이 부족해서 그런가봐요
그래서 좀 많이 느리지만, 셀레니움으로 일단 만들어보려고 합니다~
'python' 카테고리의 다른 글
파이썬 pdf 파일 읽기(pdfminer 설치) 설치부터 예제까지 (12) | 2018.02.14 |
---|---|
지진 알람(지진 알림) 만들어보기 - 파이썬을 이용 (0) | 2018.02.13 |
IT 봉사 - 파이썬 GUI(pyqt5)로 교회 재정프로그램(화도사랑의교회) 개발8 (0) | 2018.02.09 |
파이썬 pyqt, pyqt5 배포판(exe 파일) 윈도우 실행 오류 해결 (0) | 2018.02.07 |
IT 봉사 - 파이썬 GUI(pyqt5)로 교회 재정프로그램(화도사랑의교회) 개발7 (0) | 2018.02.06 |