안녕하세요~
오늘도 취업을 위해 열심히 데이터 분석을 하고 있는 사람입니다
오늘은 지니 차트에서 11월 중 가장 많이 나온 가수를 뽑아내려고 해요~
순위 50개 중 가장 가수 이름 또는 그룹 이름이 가장 많이 나온 것을 순서대로 뽑아내려고 합니다
지니 차트를 타겟으로 진행했어요
지니 차트를 보면 해당 날짜별로 차트가 나오고 있습니다
저 url을 이제 조작하면 11월달의 특정 '일'을 가지고 차트를 크롤링 할 수 있죠
그리고 가수 명이 써져 있는 곳은 a태그의 artist ellipsis라는 클래스입니다
이 부분을 타겟으로 크롤링하면 되겠네요
크롤링을 진행합니다
지니 차트 위에 url 부분을 가지고 옵니다.
그리고 ymd= 부분 즉 데이터 부분을 date라는 변수로 두고요
1~30일까지 데이트 값을 변경하면서 진행합니다.
즉, 한 번 돌때마다 date가 1씩 증가되죠
그리고 cnt >= 50인데요
50위 순위까지만 가지고 옵니다
그래서 11월 1일부터 30일까지 각 일 별로 50위 차트를 크롤링해요
크롤링을 진행하면요
위와 같이 데이터가 긁어와집니다
볼빨간사춘기, 방탄소년단, 아이유, 헤이즈, 황치열, 트와이스 등이 보이네요!
이것들은 자동적으로 텍스트(txt)파일로 저장되도록 했습니다
자 이제 R을 이용해 분석하죠
readLines를 통해 텍스트 파일을 읽어옵니다
그리고 ggplot2를 이용해서 데이터를 분석해보죠
x축은 singer이고요 내림차순을 위해서 reorder에 - 값을 주었습니다
그리고 x축에다가 singer를 계속 두면 가수 명이 겹쳐서 보이지 않는 문제가 발생하는데요
그걸 방지하기 위해 축을 회전시키는 coord_filp을 이용했습니다.
자! 결과가 나왔네요 ㅎㅎ
에픽하이, 위너원, 볼빨간사춘기, 레드벨벳, 트와이스, 윤종신, 어반 자카파, 방탄소년단 등 요즘 많이 언급되는 가수들이 많이 나와 있네요!
이게 50위 가수 명을 카운팅한거라 제대로된 순위는 아니지만(다음엔 제대로된 순위를 매기겠습니다 점수 방식으로)
그래도 50위 안에 저렇게 많이 있다는 거는 그 만큼 인지도가 있다는 거겠죠?ㅎㅎ
여기까지 포스팅 마치겠습니다~
'R' 카테고리의 다른 글
R 인터렉티브 그래프 그리기 (0) | 2017.12.05 |
---|---|
R 워드 클라우드(word cloud) 생성해보기 (0) | 2017.12.04 |
R KoNLP를 이용해 텍스트 마이닝을 진행해보자 (0) | 2017.12.04 |
R 그래프 html로 만들기 (0) | 2017.11.29 |
R 축 회전하기(x축, y축 변경) - coord_flip (0) | 2017.11.28 |