목록통계분석 (11)
꿈 많은 사람의 이야기
안녕하세요~ 오늘도 취업을 위해 열심히 데이터 분석을 하고 있는 사람입니다 오늘은 지니 차트에서 11월 중 가장 많이 나온 가수를 뽑아내려고 해요~ 순위 50개 중 가장 가수 이름 또는 그룹 이름이 가장 많이 나온 것을 순서대로 뽑아내려고 합니다 지니 차트를 타겟으로 진행했어요 지니 차트를 보면 해당 날짜별로 차트가 나오고 있습니다 저 url을 이제 조작하면 11월달의 특정 '일'을 가지고 차트를 크롤링 할 수 있죠 그리고 가수 명이 써져 있는 곳은 a태그의 artist ellipsis라는 클래스입니다 이 부분을 타겟으로 크롤링하면 되겠네요 크롤링을 진행합니다 지니 차트 위에 url 부분을 가지고 옵니다. 그리고 ymd= 부분 즉 데이터 부분을 date라는 변수로 두고요 1~30일까지 데이트 값을 변경하..
R에서 만든 그래프를 웹 페이지에 올리고 싶을때가 있습니다 캡쳐나 이미지 파일로 저장을 해서 img파일을 올릴 수도 있습니다 하지만 인터렉티브 그래프(마우스에 따라서 값을 보여주고 하는 등의 움직임이 있는 그래프)는 이미지로 보여줄 수 없습니다 말 그대로 그래프 자체가 html로 만들어져야 하기 때문이죠 이럴때 R에서 그래프를 html로 만들 수 있습니다! 방법은 정말 간단해요~ R 오른쪽 밑에를 보면 Viewer탭 아래에 Export가 있습니다. 여기를 클릭하면 Save as Web Page라고 나오는데요 저걸 누르시면 됩니다 만약 무슨 알림창이 나오게 되면 확인을 누르시면 되어요! 저는 test라는 이름으로 만들었습니다 ㅎㅎ html파일이 생성되었죠? 웹페이지에 올려볼까요? 잘 나오네요! 이런식으로 ..
R에서 분석을 하다보면 축을 변경하고 싶을때가 있다 예를 들어 원래 x축에 있는 값인데 얘가 값이 많아서 겹치는 일이 발생해 이름이 안보일 수도 있습니다 그러면 x축 기준 값을 y축으로 이동하고 y축 기준 값을 x축으로 이동해서 보면 편하겠죠? 이럴때 R에선 coord_filp이라는 것을 쓰면 됩니다 먼저 이렇게 해볼게요 x축은 종교, y축은 인원수라고 가정하고 만들어보겠습니다 그러면 위와 같이 그래프가 그려질겁니다 근데 저 x축을 y축으로 이동하고 싶으면? coord_filp( )을 추가하면 됩니다 자 이렇게요! coord_flip만 추가해주면요 이렇게 축 회전이 됩니다~
통계 분석을 하다보면 값을 오름차순이나 내림차순이나 변경해야 할 때가 있습니다 그럴때 쓰는 방법이 있죠 어떤 형식이냐에 따라 다릅니다 그래프 형식에서는 reorder라는 것을 쓸 수 있구요 그냥 일반 벡터에는 sort의 decreasing을 사용하면 됩니다. 먼저 ggplot 그래프에서 오름차순, 내림차순으로 해보죠 이렇게 하면 그래프가 아래처럼 나옵니다 내림차순으로 나오죠 얘를 그럼 오름차순으로 해보죠 reorder를 이용합니다 자 어떻게 되나 볼까요? 이렇게 바뀌게 됩니다! 그래프에선 이렇게 바꿀 수 있고요 다음은 그냥 일반 벡터에서 볼까요? a에 1부터 50까지의 숫자를 랜덤하게 넣습니다 이렇게 넣으면요~ 위 처럼 될 것입니다 1부터 50까지 숫자가 랜덤으로 들어가있죠? 이걸 이제 정렬해볼게요! s..
R에서 데이터를 다룰 때 데이터를 합쳐야 할 상황이 생길 수 있습니다 당연히 이런 기능이 존재합니다 행으로 합치거나 열로 합치거나 둘다 가능합니다. left_join함수와 bind_rows를 이용하면 됩니다. 아래 사진 처럼 합칠 수 있어요~ 위는 열을 합치는겁니다. 아래는 행 데이터를 합치고요~ 이제 실습을 해보겠습니다. 먼저 열을 합치는 경우에요~ data1, data2를 생성하겠습니다. 각각 id 변수는 동일하지만 midterm과 final이 다릅니다 위 사진 처럼 데이터 프레임을 만들어줍니다 각각을 출력하면 아래처럼 나오게 되겠죠? 먼저 left_join을 이용해서 열을 합쳐보겠습니다. by="id"를 통해 공통 변수인 id로 맞추어서 합치겠습니다~ 합친 데이터를 total에 넣고 출력해보죠 위 ..
R에서 데이터를 다루는 방법은 여러가지가 있습니다. 이번 포스팅은 dplyr 라이브러리를 이용해서 데이터를 다루는 방법을 공부해볼까 합니다 먼저 데이터 행(row)값을 추출하는 방법입니다! 아래 그림처럼요~ 내가 class가 1인 사람들의 정보만 출력하고 싶을 때가 있을겁니다 그럴때 사용하는 방법이죠~ 먼저 dplyr 라이브러리를 가지고 옵니다 설치가 안되어 있다면 install.packages로 설치하세요~ 그리고 csv파일을 읽어와서 진행을 해보겠습니다 %>% 라는 것은 출력하라는 겁니다 exam 데이타 프레임에 있는 것을 출력을 하는데 class가 1인 데이터만 filter해서 추출해라! 이거죠 그렇게 출력하면 위와 같이 출력이 됩니다 조건을 다르게 하면 다르게 출력이 가능해요~ 아래처럼요 영어가 ..
R에서도 조건문(if 문)이 존재합니다. 특정 조건에 따라서 값을 넣을 수 있는 거죠! 실습은 ggplot2라는 패키지를 통해서 진행해보겠습니다. install.packages("ggplot2") 을 통해 설치할 수 있습니다. 그리고 libaray(ggplot2)으로 가지고 와서 사용하죠 거기 안에 mpg 데이터가 있습니다. 이 값을 이용해볼게요 mpg 데이터는 1999~2008년 사이 미국에서 출시된 자동차 234종의 연비 관련 정보입니다. 위 사진처럼 먼저 libaray를 통해 가지고 옵니다. 그리고 mpg$total로 새로운 변수를 만들어요. 그 변수 값은 mpg$cty 값과 mpg$hwy 값을 더하고 / 2를 한 값을 넣습니다. 그리고 mpg$test 변수를 새로 추가하는데요. ifelse 문을 ..
R에서 프레임 다루는 것을 공부해봅니다 프레임으로 저장되어 있는 데이터 및 정보를 출력할 수 있는 기능이 있습니다 head( )와 tail( ), view( ), str( ), summary( )를 알아볼까 합니다 저는 데이터 프레임을 csv 파일에서 가지고 왔습니다. 그리고 head를 통해 출력해보죠 head는 위에서부터 출력해줍니다. 이렇게 숫자를 넣으면 개수만큼 출력을 해주죠! tail은 아래서부터 출력을 해줍니다. head와 마찬가지로 숫자를 넣으면 개수만큼 출력해줍니다. 그리고 view라는 것은 마치 엑셀 파일처럼 출력을 해줍니다. 이렇게 써서 출력을 해보면 아래 사진처럼 나오게 됩니다. 새로운 스크립트같이 하나가 추가되면서 엑셀처럼 보여주죠! str은 열에 대한 정보를 간단하게 보여줍니다. s..
R 에서는 엑셀뿐 아니라 CSV 파일도 불러올 수 있습니다. CSV 파일은 Comma-separated Values의 약자로써 말 그대로 ,로 이어져 있는 것을 뜻합니다! 이런식으로 말이죠! 이제 이 CSV 파일을 불러오는 방법을 알아보겠습니다 매우 간단합니다 엑셀처럼 패키지를 설치할 필요가 없습니다. R에 기본적으로 내장이 되어 있는 read.csv( )를 이용합니다. 현재 프로젝트 디렉터리에 csv 파일을 놓고 위처럼 사용하면 됩니다. 그러면 읽는 것만 되는건가 싶죠? 쓸 수도 있습니다~ 아래 처럼 말이죠! wrtie.csv()를 이용하면 csv 파일을 만들 수 있습니다. 먼저 ex7에 데이터 프레임을 만들어 둡니다. 저렇게 만들면 열 3개(영어, 수학, class)와 각 열에 행으로 값이 들어가게 ..