Link
09-25 12:23
«   2020/09   »
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30      
Archives
Today
939
Total
1,023,685
관리 메뉴

꿈 많은 사람의 이야기

인기 가수 순위 분석해보기(11월 기준) - R과 파이썬을 이용 본문

R

인기 가수 순위 분석해보기(11월 기준) - R과 파이썬을 이용

이수진의 블로그 이수진의 블로그 2017. 12. 4. 15:38

안녕하세요~

오늘도 취업을 위해 열심히 데이터 분석을 하고 있는 사람입니다

 

오늘은 지니 차트에서 11월 중 가장 많이 나온 가수를 뽑아내려고 해요~

순위 50개 중 가장 가수 이름 또는 그룹 이름이 가장 많이 나온 것을 순서대로 뽑아내려고 합니다

 

지니 차트를 타겟으로 진행했어요

 

 

지니 차트를 보면 해당 날짜별로 차트가 나오고 있습니다

저 url을 이제 조작하면 11월달의 특정 '일'을 가지고 차트를 크롤링 할 수 있죠

 

 

그리고 가수 명이 써져 있는 곳은 a태그의 artist ellipsis라는 클래스입니다

이 부분을 타겟으로 크롤링하면 되겠네요

크롤링을 진행합니다

지니 차트 위에 url 부분을 가지고 옵니다.

그리고 ymd= 부분 즉 데이터 부분을 date라는 변수로 두고요

1~30일까지 데이트 값을 변경하면서 진행합니다.

 

즉, 한 번 돌때마다 date가 1씩 증가되죠

 

 

그리고 cnt >= 50인데요

50위 순위까지만 가지고 옵니다

그래서 11월 1일부터 30일까지 각 일 별로 50위 차트를 크롤링해요

크롤링을 진행하면요

 

위와 같이 데이터가 긁어와집니다

볼빨간사춘기, 방탄소년단, 아이유, 헤이즈, 황치열, 트와이스 등이 보이네요!

 

 

이것들은 자동적으로 텍스트(txt)파일로 저장되도록 했습니다

자 이제 R을 이용해 분석하죠

 

 

readLines를 통해 텍스트 파일을 읽어옵니다

그리고 ggplot2를 이용해서 데이터를 분석해보죠

 

x축은 singer이고요 내림차순을 위해서 reorder에 - 값을 주었습니다

그리고 x축에다가 singer를 계속 두면 가수 명이 겹쳐서 보이지 않는 문제가 발생하는데요

그걸 방지하기 위해 축을 회전시키는 coord_filp을 이용했습니다.

 

 

자! 결과가 나왔네요 ㅎㅎ

에픽하이, 위너원, 볼빨간사춘기, 레드벨벳, 트와이스, 윤종신, 어반 자카파, 방탄소년단 등 요즘 많이 언급되는 가수들이 많이 나와 있네요!

이게 50위 가수 명을 카운팅한거라 제대로된 순위는 아니지만(다음엔 제대로된 순위를 매기겠습니다 점수 방식으로)

그래도 50위 안에 저렇게 많이 있다는 거는 그 만큼 인지도가 있다는 거겠죠?ㅎㅎ

 

여기까지 포스팅 마치겠습니다~

2 Comments
댓글쓰기 폼