목록R 프로그래밍 (23)
꿈 많은 사람의 이야기
안녕하세요 ~ 이번 책 후기는 do it! 책입니다. 여러 시리즈가 있지만 전 그중에서 R 데이터 분석 책을 봤습니다 사실 이 책으로 공부한 지 꽤 되었는데요 올려야지 올려야지 하면서 미루다 이제 올리네요 이지스퍼블리싱에서 출판했고요 김영우씨가 저자입니다 do it 시리즈는 it 쪽에서 많이 팔리는 시리즈이죠 예전부터 보아와서 이번에 R을 공부하고 싶어 do it 시리즈로 샀습니다 저는 뭐 프로그래밍 혹은 코딩을 잘하진 않지만 주로 언어가 이쪽은 아니었어요 자바, c, 파이썬, jsp, 자바스크립트, perl(펄) 등만 했었죠 통계 프로그램은 익숙하지 않았습니다 그래서 쉬운 책, 접근성이 쉬운 것을 찾다가 do it을 사게 되었습니다 결론부터 말하자면 평점은 5점 중 4점입니다 정말 쉽고 간편하게 잘 써..
R에서 데이터를 처리하다보면 데이터가 없는 값이 있을 수도 있습니다. 이 없는 데이터를 처리해야하는데요 아래와 같은 상황입니다. 두 데이터 프레임을 bind_rows 함수를 이용해 합쳐줍니다. 그러면 아래와 같이 됩니다. NA 값이 들어가있죠 만약 데이터를 처리하는데 이러한 데이터가 있으면 정말 난처합니다. 이때 is.na 함수를 통해서 빠진 데이터가 있는지 알 수 있습니다. is.na를 사용하면 TRUE, FALSE가 나오는데, 데이터가 없으면 TRUE 값이 나옵니다 위 사진처럼 말이죠! 그럼 이제 NA 값 즉 결측치가 있는 데이터를 출력해보죠 결측치가 없는 데이터와 있는 데이터를 전부 출력해보겠습니다. filter를 이용해서 is.na 함수를 사용합니다 id를 기준으로 결측치가 있는 데이터를 먼저 출..
R에서 데이터를 다룰 때 데이터를 합쳐야 할 상황이 생길 수 있습니다 당연히 이런 기능이 존재합니다 행으로 합치거나 열로 합치거나 둘다 가능합니다. left_join함수와 bind_rows를 이용하면 됩니다. 아래 사진 처럼 합칠 수 있어요~ 위는 열을 합치는겁니다. 아래는 행 데이터를 합치고요~ 이제 실습을 해보겠습니다. 먼저 열을 합치는 경우에요~ data1, data2를 생성하겠습니다. 각각 id 변수는 동일하지만 midterm과 final이 다릅니다 위 사진 처럼 데이터 프레임을 만들어줍니다 각각을 출력하면 아래처럼 나오게 되겠죠? 먼저 left_join을 이용해서 열을 합쳐보겠습니다. by="id"를 통해 공통 변수인 id로 맞추어서 합치겠습니다~ 합친 데이터를 total에 넣고 출력해보죠 위 ..
R에서 데이터를 다루는 방법은 여러가지가 있습니다. 이번 포스팅은 dplyr 라이브러리를 이용해서 데이터를 다루는 방법을 공부해볼까 합니다 먼저 데이터 행(row)값을 추출하는 방법입니다! 아래 그림처럼요~ 내가 class가 1인 사람들의 정보만 출력하고 싶을 때가 있을겁니다 그럴때 사용하는 방법이죠~ 먼저 dplyr 라이브러리를 가지고 옵니다 설치가 안되어 있다면 install.packages로 설치하세요~ 그리고 csv파일을 읽어와서 진행을 해보겠습니다 %>% 라는 것은 출력하라는 겁니다 exam 데이타 프레임에 있는 것을 출력을 하는데 class가 1인 데이터만 filter해서 추출해라! 이거죠 그렇게 출력하면 위와 같이 출력이 됩니다 조건을 다르게 하면 다르게 출력이 가능해요~ 아래처럼요 영어가 ..
안녕하세요~ 이번 포스팅은 로또 분석 2단계 포스팅입니다! 579~779회분 데이터를 이용해서 어떤 숫자가 많이 나왔는지 분석해보겠습니다~ R 프로그래밍을 이용했고요 데이터는 로또 사이트에서 엑셀파일로 받았습니다 이렇게 엑셀파일이 구성되어 있습니다 전 여기서 금액 이런거 다 필요 없고 당첨번호만 가지고 분석을 해볼 겁니다 지난주 로또 회수 779회부터 2014년 579회까지 데이터를 가지고 어떤 숫자가 많이 나왔는지 보겠습니다 엑셀 파일을 받기 위해 엑셀 라이브러리를 갖고 옵니다 그리고 lotto2.xlsx 파일을 가지고 와요 전 미리 저 숫자들의 데이터만 따로 빼놨습니다 그리고 table을 이용해서 빈도수를 봐보죠 아래 사진이 빈도수입니다 숫자 1은 28번, 45는 29번 등 카운트가 세어졌습니다 어떤..
R에서도 조건문(if 문)이 존재합니다. 특정 조건에 따라서 값을 넣을 수 있는 거죠! 실습은 ggplot2라는 패키지를 통해서 진행해보겠습니다. install.packages("ggplot2") 을 통해 설치할 수 있습니다. 그리고 libaray(ggplot2)으로 가지고 와서 사용하죠 거기 안에 mpg 데이터가 있습니다. 이 값을 이용해볼게요 mpg 데이터는 1999~2008년 사이 미국에서 출시된 자동차 234종의 연비 관련 정보입니다. 위 사진처럼 먼저 libaray를 통해 가지고 옵니다. 그리고 mpg$total로 새로운 변수를 만들어요. 그 변수 값은 mpg$cty 값과 mpg$hwy 값을 더하고 / 2를 한 값을 넣습니다. 그리고 mpg$test 변수를 새로 추가하는데요. ifelse 문을 ..
R에서 프레임 다루는 것을 공부해봅니다 프레임으로 저장되어 있는 데이터 및 정보를 출력할 수 있는 기능이 있습니다 head( )와 tail( ), view( ), str( ), summary( )를 알아볼까 합니다 저는 데이터 프레임을 csv 파일에서 가지고 왔습니다. 그리고 head를 통해 출력해보죠 head는 위에서부터 출력해줍니다. 이렇게 숫자를 넣으면 개수만큼 출력을 해주죠! tail은 아래서부터 출력을 해줍니다. head와 마찬가지로 숫자를 넣으면 개수만큼 출력해줍니다. 그리고 view라는 것은 마치 엑셀 파일처럼 출력을 해줍니다. 이렇게 써서 출력을 해보면 아래 사진처럼 나오게 됩니다. 새로운 스크립트같이 하나가 추가되면서 엑셀처럼 보여주죠! str은 열에 대한 정보를 간단하게 보여줍니다. s..
R 에서는 엑셀뿐 아니라 CSV 파일도 불러올 수 있습니다. CSV 파일은 Comma-separated Values의 약자로써 말 그대로 ,로 이어져 있는 것을 뜻합니다! 이런식으로 말이죠! 이제 이 CSV 파일을 불러오는 방법을 알아보겠습니다 매우 간단합니다 엑셀처럼 패키지를 설치할 필요가 없습니다. R에 기본적으로 내장이 되어 있는 read.csv( )를 이용합니다. 현재 프로젝트 디렉터리에 csv 파일을 놓고 위처럼 사용하면 됩니다. 그러면 읽는 것만 되는건가 싶죠? 쓸 수도 있습니다~ 아래 처럼 말이죠! wrtie.csv()를 이용하면 csv 파일을 만들 수 있습니다. 먼저 ex7에 데이터 프레임을 만들어 둡니다. 저렇게 만들면 열 3개(영어, 수학, class)와 각 열에 행으로 값이 들어가게 ..
R에서는 엑셀에 쓰여 있는 데이터를 사용할 수 있습니다 엑셀에 한 열에 주제를 넣고 값을 넣으면 관리하기 편한데 그걸 이용하는 것입니다 엑셀 파일을 불러오는 방법은 해당 프로젝트 폴더에 파일을 두거나, 절대 경로로 불러올 수 있습니다 먼저 해당 프로젝트 폴더에 파일을 두고 불러오겠습니다 위 사진에서 화살표를 보면 현재 디렉터리에 excel_exam.xlsx라는 파일이 존재하는 것을 볼 수 있습니다 그리고 엑셀 파일을 불러오려면 그 기능을 담당하는 패키지를 설치해야 합니다! install.packages()로 readxl 패키지를 설치합니다~ 그리고 library()를 통해 라이브러리 등록을 합니다 이후 read_excel()함수를 이용해서 해당 파일 명을 불러오면 저렇게 불러와집니다! 참고로 불러온 엑셀..