목록R 프로그래밍 (23)
꿈 많은 사람의 이야기
R에서 그래프를 그리면 그냥 일반적인 선 그래프를 그릴 수도 있지만 동적으로 보여주는 그래프도 많이 그립니다 예를 들어 마우스 움직임에 반응해서 좌표 값을 보여준다던지 그런 기능이 있는 그래프죠 R에서 그런 그래프를 그릴 수 있습니다 인터렉티브 그래프라고 불리우는데요 plotly 패키지로 만들 수 있습니다! 진행해보죠 먼저 plotly를 설치합니다 install.packages로 설치하면되죠 그리고 라이브러리를 가지고 옵니다 ggplot2로 만든 그래프를 plotly의 ggplotly에 적용해보죠! ggplot2 안에 있는 내장 데이터(mpg)로 진행해볼게요~ 먼저 그래프를 그릴 p 라는 변수를 만들어줍니다 그리고 그 p를 ggplotly( )에 넣어주면 됩니다 이렇게요~ 자 이렇게 그러졌네요! 이제 이..
안녕하세요~ 오늘도 취업을 위해 열심히 데이터 분석을 하고 있는 사람입니다 오늘은 지니 차트에서 11월 중 가장 많이 나온 가수를 뽑아내려고 해요~ 순위 50개 중 가장 가수 이름 또는 그룹 이름이 가장 많이 나온 것을 순서대로 뽑아내려고 합니다 지니 차트를 타겟으로 진행했어요 지니 차트를 보면 해당 날짜별로 차트가 나오고 있습니다 저 url을 이제 조작하면 11월달의 특정 '일'을 가지고 차트를 크롤링 할 수 있죠 그리고 가수 명이 써져 있는 곳은 a태그의 artist ellipsis라는 클래스입니다 이 부분을 타겟으로 크롤링하면 되겠네요 크롤링을 진행합니다 지니 차트 위에 url 부분을 가지고 옵니다. 그리고 ymd= 부분 즉 데이터 부분을 date라는 변수로 두고요 1~30일까지 데이트 값을 변경하..
지난 시간에 KoNLP를 이용해서 텍스트 마이닝을 진행했습니다 이번 포스팅은 지난 시간에 진행한 텍스트 마이닝으로 워드클라우드(word cloud)를 진행해볼게요 워드 클라우드는 많이 익숙한 자료입니다 단어들이 마치 그림처럼 색깔별로, 빈도수 별로 크기도 다르게 나오죠 지난 포스팅 자료는 아래와 같습니다 http://lsjsj92.tistory.com/216 자 이제 워드클라우드에 필요한 패키지를 설치하죠 install.packages()를 통해 wordcloud를 설치합니다 wordcloud를 설치하면 자동적으로 RColorBrewer도 설치됩니다 글자 색깔을 표현하기 위해서요 이제 색깔먼저 입힐게요 pal이라는 변수에 brewer.pal()을 이용해서 색깔을 입힙니다. Dark2 계열에 색깔을 입힐게..
R에서 텍스트 마이닝을 할 수 있습니다 즉 텍스트(문장)이 주어지면 그게 주어인지, 동사인지 등등을 파악할 수 있죠(형태소 분석) 저는 영어가 아닌 한글의 텍스트 마이닝을 진행해보려고 합니다. 일단 이 텍스트 마이닝을 진행하려면 컴퓨터에 java가 설치되어 있어야 합니다 자바가 설치되어 있다고 가정하에 진행하겠습니다 위 3개의 패키지를 설치해줍니다 KoNLP, rJava, memoise 3개의 패키지입니다 패키지 설치가 완료되었죠? 자 이제 useNIADic( )을 통해 사전을 가지고 옵니다 KoNLP에서 지원하는 NIA 사전은 98만여 개의 단어로 구성되어 있는데요 이 사전을 활용해서 진행해야 합니다 저렇게 useNIADic( )을 하게 되면요 이렇게 install이 되면서 진행될겁니다 98만여개의 단..
R에서 만든 그래프를 웹 페이지에 올리고 싶을때가 있습니다 캡쳐나 이미지 파일로 저장을 해서 img파일을 올릴 수도 있습니다 하지만 인터렉티브 그래프(마우스에 따라서 값을 보여주고 하는 등의 움직임이 있는 그래프)는 이미지로 보여줄 수 없습니다 말 그대로 그래프 자체가 html로 만들어져야 하기 때문이죠 이럴때 R에서 그래프를 html로 만들 수 있습니다! 방법은 정말 간단해요~ R 오른쪽 밑에를 보면 Viewer탭 아래에 Export가 있습니다. 여기를 클릭하면 Save as Web Page라고 나오는데요 저걸 누르시면 됩니다 만약 무슨 알림창이 나오게 되면 확인을 누르시면 되어요! 저는 test라는 이름으로 만들었습니다 ㅎㅎ html파일이 생성되었죠? 웹페이지에 올려볼까요? 잘 나오네요! 이런식으로 ..
R에서 분석을 하다보면 축을 변경하고 싶을때가 있다 예를 들어 원래 x축에 있는 값인데 얘가 값이 많아서 겹치는 일이 발생해 이름이 안보일 수도 있습니다 그러면 x축 기준 값을 y축으로 이동하고 y축 기준 값을 x축으로 이동해서 보면 편하겠죠? 이럴때 R에선 coord_filp이라는 것을 쓰면 됩니다 먼저 이렇게 해볼게요 x축은 종교, y축은 인원수라고 가정하고 만들어보겠습니다 그러면 위와 같이 그래프가 그려질겁니다 근데 저 x축을 y축으로 이동하고 싶으면? coord_filp( )을 추가하면 됩니다 자 이렇게요! coord_flip만 추가해주면요 이렇게 축 회전이 됩니다~
통계 분석을 하다보면 값을 오름차순이나 내림차순이나 변경해야 할 때가 있습니다 그럴때 쓰는 방법이 있죠 어떤 형식이냐에 따라 다릅니다 그래프 형식에서는 reorder라는 것을 쓸 수 있구요 그냥 일반 벡터에는 sort의 decreasing을 사용하면 됩니다. 먼저 ggplot 그래프에서 오름차순, 내림차순으로 해보죠 이렇게 하면 그래프가 아래처럼 나옵니다 내림차순으로 나오죠 얘를 그럼 오름차순으로 해보죠 reorder를 이용합니다 자 어떻게 되나 볼까요? 이렇게 바뀌게 됩니다! 그래프에선 이렇게 바꿀 수 있고요 다음은 그냥 일반 벡터에서 볼까요? a에 1부터 50까지의 숫자를 랜덤하게 넣습니다 이렇게 넣으면요~ 위 처럼 될 것입니다 1부터 50까지 숫자가 랜덤으로 들어가있죠? 이걸 이제 정렬해볼게요! s..
안녕하세요~ 이번 포스팅은 여성분들이 관심이 많은 립스틱에 대한 조사입니다~ 저는 뭐 남자라서 립스틱 종류 이런건 알지 못하지만요 ㅎㅎ 그냥 간단하게 어떤 브랜드가 인기가 많은지 파악해보려고 합니다~ (취업이나 해야하는데 이런거 분석하면서 잘 놀고 있습니다 ㅠㅠ) 300순위를 분석을 했어요~ 300순위 안에 어떤 브랜드가 많이 들어가 있는지 보려고 합니다 참고 사이트는 찾고 또 찾다가 파우더룸이라는 사이트를 알게 되었습니다 저는 뭐 처음 들어보는데요 많은 여성분들이 이용하고 있는 사이트라고 하네요? https://www.powderroom.co.kr/ 해당 주소를 가지고 있는 사이트입니다. 저는 여기서 립스릭 랭킹을 통해 분석해볼게요~ 저기 립스릭 랭킹이 있네요! 맥이 1순위이고 마몽드, 입생로랑 등등 ..
지난 포스팅에 그래프 공부를 했습니다 막대 그래프, 빈도 막대 그래프 등을 공부했죠 이번 포스팅에는 선 그래프, 박스 그래프를 공부하려고 합니다 선 그래프는 시간에 따라 달라지는 그런 데이터를 표현할 때 자주 사용합니다 ggplot2의 economics 데이터를 이용해 시계열 그래프를 만들어 볼 수 있는데요 한번 진행 해보겠습니다 economics를 치면 아래처럼 나오게됩니다 date는 날짜, unemploy는 실업자 수를 말하는데요 x축에 날짜, y축에 실업자 수를 놓고 그러보죠 geom_line을 사용하면 됩니다. 선 그래프에요! 이렇게 나옵니다! 실업자 수가 줄었다, 늘어났다 하는 것을 볼 수 있습니다 다음으로는 상자 그래프가 있는데요 데이터의 분포를 직사각형으로 표현한 그래프 입니다 간단한 설명은..
ggplot2은 R에서 많이 사용되는 그래프 패키지이다 다양한 그래프들이 존재하며 사용하기 쉽게 되어 있습니다 그리고 색상 추가 등의 기능도 있어서 알아보기 쉽게 사용할 수 있습니다 ggplot이 없으시면 install.packages("ggplot2")를 통해 설치하시면 됩니다 ggplot2에서 데이터를 그리는데 순서가 있습니다 1. 먼저 배경을 그립니다 2. 그래프를 그립니다 3. 설정을 추가합니다(색, 축 범위 등) 순서대로 진행해보죠 먼저 library로 ggplot을 가지고 옵니다. 그리고 그래프를 그려보죠 위 처럼하면 그래프가 그려집니다 ggplot2에 있는 mpg 데이터로 진행했습니다 data를 mpg로 설정, x축은 배기량, y축은 고속도로 연비 값으로 두었습니다 x축, y축을 통해 그래프..