세로형
Recent Posts
Recent Comments
Link
04-20 00:01
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
관리 메뉴

꿈 많은 사람의 이야기

R NA 데이터 처리(빠진 데이터 찾기) - is.na, na.rm 본문

R

R NA 데이터 처리(빠진 데이터 찾기) - is.na, na.rm

이수진의 블로그 2017. 11. 15. 11:00

 

R에서 데이터를 처리하다보면 데이터가 없는 값이 있을 수도 있습니다.

이 없는 데이터를 처리해야하는데요

아래와 같은 상황입니다.

두 데이터 프레임을 bind_rows 함수를 이용해 합쳐줍니다.

그러면 아래와 같이 됩니다.

 

NA 값이 들어가있죠

만약 데이터를 처리하는데 이러한 데이터가 있으면 정말 난처합니다.

이때 is.na 함수를 통해서 빠진 데이터가 있는지 알 수 있습니다.

 

 

is.na를 사용하면 TRUE, FALSE가 나오는데, 데이터가 없으면 TRUE 값이 나옵니다

 

 

위 사진처럼 말이죠!

 

그럼 이제 NA 값 즉 결측치가 있는 데이터를 출력해보죠

결측치가 없는 데이터와 있는 데이터를 전부 출력해보겠습니다.

 

 

filter를 이용해서 is.na 함수를 사용합니다

id를 기준으로 결측치가 있는 데이터를 먼저 출력하겠습니다.

그리고 결측치 NA 값이 없는 데이터를 출력하겠어요

 

 

 

출력하면 위 사진처럼 나오게 됩니다!

 

그리고 NA값이 아닌 데이터만 뽑아서 새로운 변수로 만들어 보겠습니다.

var2라는 새로운 변수를 만들어 그곳에 1, 3, 45, NA, 7 이라는 데이터를 넣을게요

그리고 %>% 를 이용해서 출력한 데이터를 넣겠습니다.

어떤 출력 데이터냐면 filter로 id와 var2 둘다 NA가 아닌 값들을 넣는겁니다

 

 

 

저렇게요!

그리고 출력하면 아래처럼 됩니다

 

 

 

결측되어 있는 데이터는 다 사라지고 데이터가 있는 값만 남겨져있습니다

 

그리고 더 공부하기 위해서 csv파일을 하나 가지고 옵니다

 

그리고 3, 8, 15번째 math 영역에 NA 값을 넣습니다

 

 

 

위 처럼요! 위에는 3, 8, 15 데이터가 NA 값이 아닌데 아래 빨간색 동그라미를 보면 NA 값으로 바뀌어 있습니다.

그리고 나서 평균값을 구하는 mean 함수를 써서 출력해보죠

그러면 NA가 뜰것입니다.

왜냐하면 결측치 값이 있기 때문에 평균값을 구할 수 없으니까요

 

 

 

NA가 뜨죠?!

이럴때는 na.rm = T 값을 이용하면 됩니다

그러면 결측치를 제외한 값들의 평균을 구해주죠!

 

 

이렇게요~

 

여기까지 알(R)에서 NA 데이터 처리였습니다

반응형
그리드형
Comments