안녕하세요~
이번 포스팅은 여성분들이 관심이 많은 립스틱에 대한 조사입니다~
저는 뭐 남자라서 립스틱 종류 이런건 알지 못하지만요 ㅎㅎ
그냥 간단하게 어떤 브랜드가 인기가 많은지 파악해보려고 합니다~
(취업이나 해야하는데 이런거 분석하면서 잘 놀고 있습니다 ㅠㅠ)
300순위를 분석을 했어요~
300순위 안에 어떤 브랜드가 많이 들어가 있는지 보려고 합니다
참고 사이트는 찾고 또 찾다가 파우더룸이라는 사이트를 알게 되었습니다
저는 뭐 처음 들어보는데요
많은 여성분들이 이용하고 있는 사이트라고 하네요?
해당 주소를 가지고 있는 사이트입니다.
저는 여기서 립스릭 랭킹을 통해 분석해볼게요~
저기 립스릭 랭킹이 있네요!
맥이 1순위이고 마몽드, 입생로랑 등등 다양한 브랜드가 있네요(처음 들어보는.......)
이것을 기준으로 분석해보려고 합니다.
이 립스릭 랭킹에서 브랜드 이름이 써져있는 부분을 파악하면요
이렇게 됩니다. div 태그에 fs-3 tc-gray-2 클래스 안에 써져 있네요!
이거를 우선 참고해서 알아두겠습니다
그리고 한가지 이 사이트의 특징은 스크롤을 아래로 내리면 다시 50개? 정도의 제품이 새로 나옵니다.
이렇게요!
밑으로 내리면 추가적으로 제품이 더 나옵니다.
그래서 파이썬의 셀레니움을 이용해서 분석하겠습니다.
그리고 크롤링을 하는 순간 바로 csv 파일에 저장할거에요!
분석을 해야하니까요 ㅎㅎ
window.scrollTo는 스크롤을 맨 아래로 내리는 기능을 합니다
스크립트 명령이에요!
아까 파악했던 div 클래스 이름을 크롤링 대상으로 삼습니다
그리고 크롤링을 시작할게요!
맥, 마몽드, 입샐로랑, 슈에무라 등등 순위 순으로 쭉쭉 긁어와지네요!
이 데이터는 바로바로 csv 파일로 들어갑니다~
자 들어가지죠?
이게 R을 이용해서 데이터 분석을 해보겠습니다.
dplyr패키지와 ggplot2를 이용해야 합니다
해당 csv파일을 가지고 옵니다
그리고 워드클라우드로 먼저 분석을 해볼게요~
워드클라우드로 분석을 해보면 아래처럼 결과가 나옵니다
가장 눈에 딱 튀는 것은 일단 맥이네요
맥 이라는 브랜드가 가장 높게 나옵니다
그리고 더페이스샵, 스킨푸드, 에스쁘아, 에뛰드하우스, 이시스프리, 헤라, 나스, 미샤 등등
다양한 화장품 브랜드가 나오네요
음.. 정말 익숙치 않는 브랜드입니다
맥 하니까 MAC OS 뿐이 생각이 안나네요
뭐 아무튼 이상한 소리 집어치우고요
여기서 상위권을 추출하기 위해서 랭킹 300위에서 7번 이상 나온 브랜드를 추출하겠습니다
7개 이상 나온 브랜드를 추출해서 그래프를 그리면요!
아래처럼 평소 익숙하던 다이어그램이 나옵니다 ㅎㅎ
맥 브랜드가 역시나 가장 높네요
그 다음 더페이스샵, 에뛰드하우스, 에스쁘아, 나스부터 이니스프리까지 다양한 브랜드가 나옵니다 ㅎㅎ
여기까지 립스틱 브랜드 순위 분석이었습니다~
음 뭐 다른거 분석할 것 없나 ㅎㅎㅎ
재밌는 것 찾아봐야겠어요
'python' 카테고리의 다른 글
파이썬 문자를 아스키로, 아스키 코드를 문자로 (10) | 2017.11.21 |
---|---|
파이썬3 자연어 처리 nltk 설치해보기 (2) | 2017.11.21 |
파이썬 랜덤 사용해보기! (0) | 2017.11.20 |
모바일 게임 순위를 알아보자! - 파이썬 셀레니움을 이용 (0) | 2017.11.20 |
파이썬 셀레니움 설치해보기 (2) | 2017.11.20 |