목록통계 프로그래밍 (14)
꿈 많은 사람의 이야기
지난 시간에 KoNLP를 이용해서 텍스트 마이닝을 진행했습니다 이번 포스팅은 지난 시간에 진행한 텍스트 마이닝으로 워드클라우드(word cloud)를 진행해볼게요 워드 클라우드는 많이 익숙한 자료입니다 단어들이 마치 그림처럼 색깔별로, 빈도수 별로 크기도 다르게 나오죠 지난 포스팅 자료는 아래와 같습니다 http://lsjsj92.tistory.com/216 자 이제 워드클라우드에 필요한 패키지를 설치하죠 install.packages()를 통해 wordcloud를 설치합니다 wordcloud를 설치하면 자동적으로 RColorBrewer도 설치됩니다 글자 색깔을 표현하기 위해서요 이제 색깔먼저 입힐게요 pal이라는 변수에 brewer.pal()을 이용해서 색깔을 입힙니다. Dark2 계열에 색깔을 입힐게..
R에서 텍스트 마이닝을 할 수 있습니다 즉 텍스트(문장)이 주어지면 그게 주어인지, 동사인지 등등을 파악할 수 있죠(형태소 분석) 저는 영어가 아닌 한글의 텍스트 마이닝을 진행해보려고 합니다. 일단 이 텍스트 마이닝을 진행하려면 컴퓨터에 java가 설치되어 있어야 합니다 자바가 설치되어 있다고 가정하에 진행하겠습니다 위 3개의 패키지를 설치해줍니다 KoNLP, rJava, memoise 3개의 패키지입니다 패키지 설치가 완료되었죠? 자 이제 useNIADic( )을 통해 사전을 가지고 옵니다 KoNLP에서 지원하는 NIA 사전은 98만여 개의 단어로 구성되어 있는데요 이 사전을 활용해서 진행해야 합니다 저렇게 useNIADic( )을 하게 되면요 이렇게 install이 되면서 진행될겁니다 98만여개의 단..
R에서 만든 그래프를 웹 페이지에 올리고 싶을때가 있습니다 캡쳐나 이미지 파일로 저장을 해서 img파일을 올릴 수도 있습니다 하지만 인터렉티브 그래프(마우스에 따라서 값을 보여주고 하는 등의 움직임이 있는 그래프)는 이미지로 보여줄 수 없습니다 말 그대로 그래프 자체가 html로 만들어져야 하기 때문이죠 이럴때 R에서 그래프를 html로 만들 수 있습니다! 방법은 정말 간단해요~ R 오른쪽 밑에를 보면 Viewer탭 아래에 Export가 있습니다. 여기를 클릭하면 Save as Web Page라고 나오는데요 저걸 누르시면 됩니다 만약 무슨 알림창이 나오게 되면 확인을 누르시면 되어요! 저는 test라는 이름으로 만들었습니다 ㅎㅎ html파일이 생성되었죠? 웹페이지에 올려볼까요? 잘 나오네요! 이런식으로 ..
R에서 분석을 하다보면 축을 변경하고 싶을때가 있다 예를 들어 원래 x축에 있는 값인데 얘가 값이 많아서 겹치는 일이 발생해 이름이 안보일 수도 있습니다 그러면 x축 기준 값을 y축으로 이동하고 y축 기준 값을 x축으로 이동해서 보면 편하겠죠? 이럴때 R에선 coord_filp이라는 것을 쓰면 됩니다 먼저 이렇게 해볼게요 x축은 종교, y축은 인원수라고 가정하고 만들어보겠습니다 그러면 위와 같이 그래프가 그려질겁니다 근데 저 x축을 y축으로 이동하고 싶으면? coord_filp( )을 추가하면 됩니다 자 이렇게요! coord_flip만 추가해주면요 이렇게 축 회전이 됩니다~
요즘 취업하려고 공부를 하고 있는데요 점점 취업의 목적이 아닌 그냥 제가 하고 싶은 데이터 크롤링해서 분석하는 재미에 빠졌네요 ㅋㅋ 물론 이쪽으로 취업을 하면 좋겠지만요 ㅠㅠ 뭐 아무튼 어제 심심해서 벅스 10월 인기 차트를 긁어와서 데이터 분석을 해봤습니다. 이 데이터 분석은 10월 벅스 인기차트 top 100안에 가수 이름(또는 그룹 이름)이 몇 번 나왔는지 분석하는 것입니다! top 100에 해당되는 앨범 혹은 곡이 많이 있으면 그만큼 가수 이름이 많이 나왔겠죠? 10월 한 달 동안의 데이터를 파이썬으로 크롤링해 R로 데이터 분석을 진행해봤습니다 크롤링을 하기에 앞서 벅스 사이트에 구조를 살펴보겠습니다 chartdate로 차트 날짜를 보여줍니다 그리고 artist 클래스 안에 텍스트 값이 있네요! ..
지난 포스팅에 그래프 공부를 했습니다 막대 그래프, 빈도 막대 그래프 등을 공부했죠 이번 포스팅에는 선 그래프, 박스 그래프를 공부하려고 합니다 선 그래프는 시간에 따라 달라지는 그런 데이터를 표현할 때 자주 사용합니다 ggplot2의 economics 데이터를 이용해 시계열 그래프를 만들어 볼 수 있는데요 한번 진행 해보겠습니다 economics를 치면 아래처럼 나오게됩니다 date는 날짜, unemploy는 실업자 수를 말하는데요 x축에 날짜, y축에 실업자 수를 놓고 그러보죠 geom_line을 사용하면 됩니다. 선 그래프에요! 이렇게 나옵니다! 실업자 수가 줄었다, 늘어났다 하는 것을 볼 수 있습니다 다음으로는 상자 그래프가 있는데요 데이터의 분포를 직사각형으로 표현한 그래프 입니다 간단한 설명은..
ggplot2은 R에서 많이 사용되는 그래프 패키지이다 다양한 그래프들이 존재하며 사용하기 쉽게 되어 있습니다 그리고 색상 추가 등의 기능도 있어서 알아보기 쉽게 사용할 수 있습니다 ggplot이 없으시면 install.packages("ggplot2")를 통해 설치하시면 됩니다 ggplot2에서 데이터를 그리는데 순서가 있습니다 1. 먼저 배경을 그립니다 2. 그래프를 그립니다 3. 설정을 추가합니다(색, 축 범위 등) 순서대로 진행해보죠 먼저 library로 ggplot을 가지고 옵니다. 그리고 그래프를 그려보죠 위 처럼하면 그래프가 그려집니다 ggplot2에 있는 mpg 데이터로 진행했습니다 data를 mpg로 설정, x축은 배기량, y축은 고속도로 연비 값으로 두었습니다 x축, y축을 통해 그래프..
안녕하세요 ~ 이번 책 후기는 do it! 책입니다. 여러 시리즈가 있지만 전 그중에서 R 데이터 분석 책을 봤습니다 사실 이 책으로 공부한 지 꽤 되었는데요 올려야지 올려야지 하면서 미루다 이제 올리네요 이지스퍼블리싱에서 출판했고요 김영우씨가 저자입니다 do it 시리즈는 it 쪽에서 많이 팔리는 시리즈이죠 예전부터 보아와서 이번에 R을 공부하고 싶어 do it 시리즈로 샀습니다 저는 뭐 프로그래밍 혹은 코딩을 잘하진 않지만 주로 언어가 이쪽은 아니었어요 자바, c, 파이썬, jsp, 자바스크립트, perl(펄) 등만 했었죠 통계 프로그램은 익숙하지 않았습니다 그래서 쉬운 책, 접근성이 쉬운 것을 찾다가 do it을 사게 되었습니다 결론부터 말하자면 평점은 5점 중 4점입니다 정말 쉽고 간편하게 잘 써..
R에서 데이터를 처리하다보면 데이터가 없는 값이 있을 수도 있습니다. 이 없는 데이터를 처리해야하는데요 아래와 같은 상황입니다. 두 데이터 프레임을 bind_rows 함수를 이용해 합쳐줍니다. 그러면 아래와 같이 됩니다. NA 값이 들어가있죠 만약 데이터를 처리하는데 이러한 데이터가 있으면 정말 난처합니다. 이때 is.na 함수를 통해서 빠진 데이터가 있는지 알 수 있습니다. is.na를 사용하면 TRUE, FALSE가 나오는데, 데이터가 없으면 TRUE 값이 나옵니다 위 사진처럼 말이죠! 그럼 이제 NA 값 즉 결측치가 있는 데이터를 출력해보죠 결측치가 없는 데이터와 있는 데이터를 전부 출력해보겠습니다. filter를 이용해서 is.na 함수를 사용합니다 id를 기준으로 결측치가 있는 데이터를 먼저 출..
안녕하세요~ 이번 포스팅은 로또 분석 2단계 포스팅입니다! 579~779회분 데이터를 이용해서 어떤 숫자가 많이 나왔는지 분석해보겠습니다~ R 프로그래밍을 이용했고요 데이터는 로또 사이트에서 엑셀파일로 받았습니다 이렇게 엑셀파일이 구성되어 있습니다 전 여기서 금액 이런거 다 필요 없고 당첨번호만 가지고 분석을 해볼 겁니다 지난주 로또 회수 779회부터 2014년 579회까지 데이터를 가지고 어떤 숫자가 많이 나왔는지 보겠습니다 엑셀 파일을 받기 위해 엑셀 라이브러리를 갖고 옵니다 그리고 lotto2.xlsx 파일을 가지고 와요 전 미리 저 숫자들의 데이터만 따로 빼놨습니다 그리고 table을 이용해서 빈도수를 봐보죠 아래 사진이 빈도수입니다 숫자 1은 28번, 45는 29번 등 카운트가 세어졌습니다 어떤..