목록R 공부 (12)
꿈 많은 사람의 이야기
R에서 그래프를 그리면 그냥 일반적인 선 그래프를 그릴 수도 있지만 동적으로 보여주는 그래프도 많이 그립니다 예를 들어 마우스 움직임에 반응해서 좌표 값을 보여준다던지 그런 기능이 있는 그래프죠 R에서 그런 그래프를 그릴 수 있습니다 인터렉티브 그래프라고 불리우는데요 plotly 패키지로 만들 수 있습니다! 진행해보죠 먼저 plotly를 설치합니다 install.packages로 설치하면되죠 그리고 라이브러리를 가지고 옵니다 ggplot2로 만든 그래프를 plotly의 ggplotly에 적용해보죠! ggplot2 안에 있는 내장 데이터(mpg)로 진행해볼게요~ 먼저 그래프를 그릴 p 라는 변수를 만들어줍니다 그리고 그 p를 ggplotly( )에 넣어주면 됩니다 이렇게요~ 자 이렇게 그러졌네요! 이제 이..
지난 시간에 KoNLP를 이용해서 텍스트 마이닝을 진행했습니다 이번 포스팅은 지난 시간에 진행한 텍스트 마이닝으로 워드클라우드(word cloud)를 진행해볼게요 워드 클라우드는 많이 익숙한 자료입니다 단어들이 마치 그림처럼 색깔별로, 빈도수 별로 크기도 다르게 나오죠 지난 포스팅 자료는 아래와 같습니다 http://lsjsj92.tistory.com/216 자 이제 워드클라우드에 필요한 패키지를 설치하죠 install.packages()를 통해 wordcloud를 설치합니다 wordcloud를 설치하면 자동적으로 RColorBrewer도 설치됩니다 글자 색깔을 표현하기 위해서요 이제 색깔먼저 입힐게요 pal이라는 변수에 brewer.pal()을 이용해서 색깔을 입힙니다. Dark2 계열에 색깔을 입힐게..
R에서 텍스트 마이닝을 할 수 있습니다 즉 텍스트(문장)이 주어지면 그게 주어인지, 동사인지 등등을 파악할 수 있죠(형태소 분석) 저는 영어가 아닌 한글의 텍스트 마이닝을 진행해보려고 합니다. 일단 이 텍스트 마이닝을 진행하려면 컴퓨터에 java가 설치되어 있어야 합니다 자바가 설치되어 있다고 가정하에 진행하겠습니다 위 3개의 패키지를 설치해줍니다 KoNLP, rJava, memoise 3개의 패키지입니다 패키지 설치가 완료되었죠? 자 이제 useNIADic( )을 통해 사전을 가지고 옵니다 KoNLP에서 지원하는 NIA 사전은 98만여 개의 단어로 구성되어 있는데요 이 사전을 활용해서 진행해야 합니다 저렇게 useNIADic( )을 하게 되면요 이렇게 install이 되면서 진행될겁니다 98만여개의 단..
R에서 분석을 하다보면 축을 변경하고 싶을때가 있다 예를 들어 원래 x축에 있는 값인데 얘가 값이 많아서 겹치는 일이 발생해 이름이 안보일 수도 있습니다 그러면 x축 기준 값을 y축으로 이동하고 y축 기준 값을 x축으로 이동해서 보면 편하겠죠? 이럴때 R에선 coord_filp이라는 것을 쓰면 됩니다 먼저 이렇게 해볼게요 x축은 종교, y축은 인원수라고 가정하고 만들어보겠습니다 그러면 위와 같이 그래프가 그려질겁니다 근데 저 x축을 y축으로 이동하고 싶으면? coord_filp( )을 추가하면 됩니다 자 이렇게요! coord_flip만 추가해주면요 이렇게 축 회전이 됩니다~
통계 분석을 하다보면 값을 오름차순이나 내림차순이나 변경해야 할 때가 있습니다 그럴때 쓰는 방법이 있죠 어떤 형식이냐에 따라 다릅니다 그래프 형식에서는 reorder라는 것을 쓸 수 있구요 그냥 일반 벡터에는 sort의 decreasing을 사용하면 됩니다. 먼저 ggplot 그래프에서 오름차순, 내림차순으로 해보죠 이렇게 하면 그래프가 아래처럼 나옵니다 내림차순으로 나오죠 얘를 그럼 오름차순으로 해보죠 reorder를 이용합니다 자 어떻게 되나 볼까요? 이렇게 바뀌게 됩니다! 그래프에선 이렇게 바꿀 수 있고요 다음은 그냥 일반 벡터에서 볼까요? a에 1부터 50까지의 숫자를 랜덤하게 넣습니다 이렇게 넣으면요~ 위 처럼 될 것입니다 1부터 50까지 숫자가 랜덤으로 들어가있죠? 이걸 이제 정렬해볼게요! s..
지난 포스팅에 그래프 공부를 했습니다 막대 그래프, 빈도 막대 그래프 등을 공부했죠 이번 포스팅에는 선 그래프, 박스 그래프를 공부하려고 합니다 선 그래프는 시간에 따라 달라지는 그런 데이터를 표현할 때 자주 사용합니다 ggplot2의 economics 데이터를 이용해 시계열 그래프를 만들어 볼 수 있는데요 한번 진행 해보겠습니다 economics를 치면 아래처럼 나오게됩니다 date는 날짜, unemploy는 실업자 수를 말하는데요 x축에 날짜, y축에 실업자 수를 놓고 그러보죠 geom_line을 사용하면 됩니다. 선 그래프에요! 이렇게 나옵니다! 실업자 수가 줄었다, 늘어났다 하는 것을 볼 수 있습니다 다음으로는 상자 그래프가 있는데요 데이터의 분포를 직사각형으로 표현한 그래프 입니다 간단한 설명은..
ggplot2은 R에서 많이 사용되는 그래프 패키지이다 다양한 그래프들이 존재하며 사용하기 쉽게 되어 있습니다 그리고 색상 추가 등의 기능도 있어서 알아보기 쉽게 사용할 수 있습니다 ggplot이 없으시면 install.packages("ggplot2")를 통해 설치하시면 됩니다 ggplot2에서 데이터를 그리는데 순서가 있습니다 1. 먼저 배경을 그립니다 2. 그래프를 그립니다 3. 설정을 추가합니다(색, 축 범위 등) 순서대로 진행해보죠 먼저 library로 ggplot을 가지고 옵니다. 그리고 그래프를 그려보죠 위 처럼하면 그래프가 그려집니다 ggplot2에 있는 mpg 데이터로 진행했습니다 data를 mpg로 설정, x축은 배기량, y축은 고속도로 연비 값으로 두었습니다 x축, y축을 통해 그래프..
유명한 통계 프로그램은 R 뿐만 아니라 SAS, SPSS 등도 있습니다 오히려 과거에는 SAS, SPSS를 더 많이 사용했죠 R에선 SAS, SPSS 등에서 사용하는 데이터를 불러올 수 있습니다. foreign 패키지를 이용하면 됩니다 install.packages를 이용해서 foreign 패키지를 설치합니다 그리고 library를 통해 패키지를 부착합니다 SPSS 기준으로 설명해드리면 아래와 같이 사용가능해요 read.spss(file = "파일명", to.data.frame = T)를 합니다. to.data.frame은 spss 데이터를 R 데이터 프레림 형태로 변환하는 옵션입니다 위 처럼 사용하면 데이터 프레임 형식으로 들어가게 됩니다
R에서 데이터를 다루는 방법은 여러가지가 있습니다. 이번 포스팅은 dplyr 라이브러리를 이용해서 데이터를 다루는 방법을 공부해볼까 합니다 먼저 데이터 행(row)값을 추출하는 방법입니다! 아래 그림처럼요~ 내가 class가 1인 사람들의 정보만 출력하고 싶을 때가 있을겁니다 그럴때 사용하는 방법이죠~ 먼저 dplyr 라이브러리를 가지고 옵니다 설치가 안되어 있다면 install.packages로 설치하세요~ 그리고 csv파일을 읽어와서 진행을 해보겠습니다 %>% 라는 것은 출력하라는 겁니다 exam 데이타 프레임에 있는 것을 출력을 하는데 class가 1인 데이터만 filter해서 추출해라! 이거죠 그렇게 출력하면 위와 같이 출력이 됩니다 조건을 다르게 하면 다르게 출력이 가능해요~ 아래처럼요 영어가 ..
안녕하세요~ 이번 포스팅은 로또 분석 2단계 포스팅입니다! 579~779회분 데이터를 이용해서 어떤 숫자가 많이 나왔는지 분석해보겠습니다~ R 프로그래밍을 이용했고요 데이터는 로또 사이트에서 엑셀파일로 받았습니다 이렇게 엑셀파일이 구성되어 있습니다 전 여기서 금액 이런거 다 필요 없고 당첨번호만 가지고 분석을 해볼 겁니다 지난주 로또 회수 779회부터 2014년 579회까지 데이터를 가지고 어떤 숫자가 많이 나왔는지 보겠습니다 엑셀 파일을 받기 위해 엑셀 라이브러리를 갖고 옵니다 그리고 lotto2.xlsx 파일을 가지고 와요 전 미리 저 숫자들의 데이터만 따로 빼놨습니다 그리고 table을 이용해서 빈도수를 봐보죠 아래 사진이 빈도수입니다 숫자 1은 28번, 45는 29번 등 카운트가 세어졌습니다 어떤..