목록R (23)
꿈 많은 사람의 이야기
어느덧 2017년이 지나가고 2018년입니다 2017년 하반기에 처음 티스토리를 시작했는데요어느덧 3~4개월 째 블로그를 꾸준히 하고 있네요 ㅎㅎ 마침 티스토리 2017 결산을 하길래 저도 해봤습니다 ㅎㅎ 먼저 제 블로그에 대한 평가네요 오.. 그런가요?? 상위 1% 부지런??왜짘ㅋㅋㅋㅋㅋ 4개월차 블로그 ㅠㅠ얼마 되지 않았습니다4년차 블로그로 성장할 때까지! 저의 대부분의 주제는 IT 인터넷입니다 ㅎㅎ맛집, 여행도 꽤나 있지만요 ㅎㅎ 저 6개 태그가 전부 IT 인터넷입니다.이렇게 보니까 글을 꽤나 많이 올렸네요..공부할 때마다 정리해서 올렸는데 ㅎㅎ 맛집도 있구요~요즘 맛집을 못가서 ㅠㅠ 그리고 요즘 가장 핫한 암호화폐(가상화폐) 정리입니다.2주? 정도 된 것 같네요 정리하기 시작한지정~말 많이 정리할..
R에서 그래프를 그리면 그냥 일반적인 선 그래프를 그릴 수도 있지만 동적으로 보여주는 그래프도 많이 그립니다 예를 들어 마우스 움직임에 반응해서 좌표 값을 보여준다던지 그런 기능이 있는 그래프죠 R에서 그런 그래프를 그릴 수 있습니다 인터렉티브 그래프라고 불리우는데요 plotly 패키지로 만들 수 있습니다! 진행해보죠 먼저 plotly를 설치합니다 install.packages로 설치하면되죠 그리고 라이브러리를 가지고 옵니다 ggplot2로 만든 그래프를 plotly의 ggplotly에 적용해보죠! ggplot2 안에 있는 내장 데이터(mpg)로 진행해볼게요~ 먼저 그래프를 그릴 p 라는 변수를 만들어줍니다 그리고 그 p를 ggplotly( )에 넣어주면 됩니다 이렇게요~ 자 이렇게 그러졌네요! 이제 이..
안녕하세요~ 오늘도 취업을 위해 열심히 데이터 분석을 하고 있는 사람입니다 오늘은 지니 차트에서 11월 중 가장 많이 나온 가수를 뽑아내려고 해요~ 순위 50개 중 가장 가수 이름 또는 그룹 이름이 가장 많이 나온 것을 순서대로 뽑아내려고 합니다 지니 차트를 타겟으로 진행했어요 지니 차트를 보면 해당 날짜별로 차트가 나오고 있습니다 저 url을 이제 조작하면 11월달의 특정 '일'을 가지고 차트를 크롤링 할 수 있죠 그리고 가수 명이 써져 있는 곳은 a태그의 artist ellipsis라는 클래스입니다 이 부분을 타겟으로 크롤링하면 되겠네요 크롤링을 진행합니다 지니 차트 위에 url 부분을 가지고 옵니다. 그리고 ymd= 부분 즉 데이터 부분을 date라는 변수로 두고요 1~30일까지 데이트 값을 변경하..
지난 시간에 KoNLP를 이용해서 텍스트 마이닝을 진행했습니다 이번 포스팅은 지난 시간에 진행한 텍스트 마이닝으로 워드클라우드(word cloud)를 진행해볼게요 워드 클라우드는 많이 익숙한 자료입니다 단어들이 마치 그림처럼 색깔별로, 빈도수 별로 크기도 다르게 나오죠 지난 포스팅 자료는 아래와 같습니다 http://lsjsj92.tistory.com/216 자 이제 워드클라우드에 필요한 패키지를 설치하죠 install.packages()를 통해 wordcloud를 설치합니다 wordcloud를 설치하면 자동적으로 RColorBrewer도 설치됩니다 글자 색깔을 표현하기 위해서요 이제 색깔먼저 입힐게요 pal이라는 변수에 brewer.pal()을 이용해서 색깔을 입힙니다. Dark2 계열에 색깔을 입힐게..
R에서 텍스트 마이닝을 할 수 있습니다 즉 텍스트(문장)이 주어지면 그게 주어인지, 동사인지 등등을 파악할 수 있죠(형태소 분석) 저는 영어가 아닌 한글의 텍스트 마이닝을 진행해보려고 합니다. 일단 이 텍스트 마이닝을 진행하려면 컴퓨터에 java가 설치되어 있어야 합니다 자바가 설치되어 있다고 가정하에 진행하겠습니다 위 3개의 패키지를 설치해줍니다 KoNLP, rJava, memoise 3개의 패키지입니다 패키지 설치가 완료되었죠? 자 이제 useNIADic( )을 통해 사전을 가지고 옵니다 KoNLP에서 지원하는 NIA 사전은 98만여 개의 단어로 구성되어 있는데요 이 사전을 활용해서 진행해야 합니다 저렇게 useNIADic( )을 하게 되면요 이렇게 install이 되면서 진행될겁니다 98만여개의 단..
R에서 만든 그래프를 웹 페이지에 올리고 싶을때가 있습니다 캡쳐나 이미지 파일로 저장을 해서 img파일을 올릴 수도 있습니다 하지만 인터렉티브 그래프(마우스에 따라서 값을 보여주고 하는 등의 움직임이 있는 그래프)는 이미지로 보여줄 수 없습니다 말 그대로 그래프 자체가 html로 만들어져야 하기 때문이죠 이럴때 R에서 그래프를 html로 만들 수 있습니다! 방법은 정말 간단해요~ R 오른쪽 밑에를 보면 Viewer탭 아래에 Export가 있습니다. 여기를 클릭하면 Save as Web Page라고 나오는데요 저걸 누르시면 됩니다 만약 무슨 알림창이 나오게 되면 확인을 누르시면 되어요! 저는 test라는 이름으로 만들었습니다 ㅎㅎ html파일이 생성되었죠? 웹페이지에 올려볼까요? 잘 나오네요! 이런식으로 ..
R에서 분석을 하다보면 축을 변경하고 싶을때가 있다 예를 들어 원래 x축에 있는 값인데 얘가 값이 많아서 겹치는 일이 발생해 이름이 안보일 수도 있습니다 그러면 x축 기준 값을 y축으로 이동하고 y축 기준 값을 x축으로 이동해서 보면 편하겠죠? 이럴때 R에선 coord_filp이라는 것을 쓰면 됩니다 먼저 이렇게 해볼게요 x축은 종교, y축은 인원수라고 가정하고 만들어보겠습니다 그러면 위와 같이 그래프가 그려질겁니다 근데 저 x축을 y축으로 이동하고 싶으면? coord_filp( )을 추가하면 됩니다 자 이렇게요! coord_flip만 추가해주면요 이렇게 축 회전이 됩니다~
통계 분석을 하다보면 값을 오름차순이나 내림차순이나 변경해야 할 때가 있습니다 그럴때 쓰는 방법이 있죠 어떤 형식이냐에 따라 다릅니다 그래프 형식에서는 reorder라는 것을 쓸 수 있구요 그냥 일반 벡터에는 sort의 decreasing을 사용하면 됩니다. 먼저 ggplot 그래프에서 오름차순, 내림차순으로 해보죠 이렇게 하면 그래프가 아래처럼 나옵니다 내림차순으로 나오죠 얘를 그럼 오름차순으로 해보죠 reorder를 이용합니다 자 어떻게 되나 볼까요? 이렇게 바뀌게 됩니다! 그래프에선 이렇게 바꿀 수 있고요 다음은 그냥 일반 벡터에서 볼까요? a에 1부터 50까지의 숫자를 랜덤하게 넣습니다 이렇게 넣으면요~ 위 처럼 될 것입니다 1부터 50까지 숫자가 랜덤으로 들어가있죠? 이걸 이제 정렬해볼게요! s..
안녕하세요~ 이번 포스팅은 여성분들이 관심이 많은 립스틱에 대한 조사입니다~ 저는 뭐 남자라서 립스틱 종류 이런건 알지 못하지만요 ㅎㅎ 그냥 간단하게 어떤 브랜드가 인기가 많은지 파악해보려고 합니다~ (취업이나 해야하는데 이런거 분석하면서 잘 놀고 있습니다 ㅠㅠ) 300순위를 분석을 했어요~ 300순위 안에 어떤 브랜드가 많이 들어가 있는지 보려고 합니다 참고 사이트는 찾고 또 찾다가 파우더룸이라는 사이트를 알게 되었습니다 저는 뭐 처음 들어보는데요 많은 여성분들이 이용하고 있는 사이트라고 하네요? https://www.powderroom.co.kr/ 해당 주소를 가지고 있는 사이트입니다. 저는 여기서 립스릭 랭킹을 통해 분석해볼게요~ 저기 립스릭 랭킹이 있네요! 맥이 1순위이고 마몽드, 입생로랑 등등 ..
요즘 취업하려고 공부를 하고 있는데요 점점 취업의 목적이 아닌 그냥 제가 하고 싶은 데이터 크롤링해서 분석하는 재미에 빠졌네요 ㅋㅋ 물론 이쪽으로 취업을 하면 좋겠지만요 ㅠㅠ 뭐 아무튼 어제 심심해서 벅스 10월 인기 차트를 긁어와서 데이터 분석을 해봤습니다. 이 데이터 분석은 10월 벅스 인기차트 top 100안에 가수 이름(또는 그룹 이름)이 몇 번 나왔는지 분석하는 것입니다! top 100에 해당되는 앨범 혹은 곡이 많이 있으면 그만큼 가수 이름이 많이 나왔겠죠? 10월 한 달 동안의 데이터를 파이썬으로 크롤링해 R로 데이터 분석을 진행해봤습니다 크롤링을 하기에 앞서 벅스 사이트에 구조를 살펴보겠습니다 chartdate로 차트 날짜를 보여줍니다 그리고 artist 클래스 안에 텍스트 값이 있네요! ..