세로형
Recent Posts
Recent Comments
Link
11-26 00:01
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Archives
Today
Total
관리 메뉴

꿈 많은 사람의 이야기

파이썬으로 공공데이터를 분석하자 - 국내 입국자(여행객 등) 분석 본문

python

파이썬으로 공공데이터를 분석하자 - 국내 입국자(여행객 등) 분석

이수진의 블로그 2018. 8. 9. 17:29
반응형
728x170


이번 포스팅은 파이썬을 이용해서 공공데이터를 분석합니다.


매년 마다 우리나라에 입국하는 입국자 데이터가 있는데요!

뭐 여행으로, 의료목적으로 등등 다양하게 들어옵니다.


그래서 어떤 나라에서, 얼마만큼 사람들이 들어왔는지 분석해봅니다


파이썬(python)을 사용했구요.

numpy, pandas, matplot, seaborn 라이브러리를 이용합니다.

그리고 간단한 머신러닝 데이터로 로지스틱 회귀(logistic regression)을 사용합니다.

이건 사이킷런(scikit learn)을 사용하구요.


자 그럼 시작해볼까요



데이터는 이렇게 되어 있습니다.

안에 엑셀 파일을 가지고 데이터를 분석해야 하는데요.

먼저 pandas를 이용해 데이터를 불러옵니다.



근데 이 컬럼이 별로 좋지 않아요.

분석하기가 쉽지 않습니다.

저는 연도별 각 국가 유입수를 보고 싶습니다.

그래서 컬럼 수정 작업을 진행합니다.



국가 별로 추출을 하면서

또한, 들어온 유입수가 지금 , 가 포함되는 등 숫자로 표기가 되지 않습니다.

이런 값들은 숫자로 표기가 되어야 하니까요

,를 제거해주면서 숫자형태로 변경해줍니다.



그리고 각 연도별로 데이터를 추출해줍니다.

마찬가지로 여기서도 , 를 제거합니다.



그리고 아예 새로운 데이터 프레임(data frame)을 만들기 위해서 

파이썬 딕셔너리(dict) 형태를 만들어줍니다.

먼저 연도 값을 넣고 이제 각 연도에 따른 데이터를 하나하나 넣어줄 것입니다.



국가를 하나씩 가지고 오면서 dict 형태로 넣을 수 있도록 작업을 해줍니다.

그리고 바로 딕셔너리에 넣어버리죠!



자 이렇게 딕셔너리 형태가 새롭게 나왔습니다.

각 나라별 그리고 연도 별로 들어온 유입수를 볼 수 있죠!



이제 새로운 데이터 프레임을 pandas의 DataFrame을 이용해 만들어줍니다.

이제 데이터 전처리는 끝났습니다!


시각화를 해볼까요?

시각화를 해야 데이터가 눈에 보이죠!

이거는 우리나라에 중국인들이 연도별로 들어온 숫자를 보여줍니다.

2005년부터 2016년까지 계~~속 증가 추세죠. 중간에 살짝 감소했지만요.

하지만 작년 2017년에는 들어오는 폭이 확 감소했네요

아마 이때가 사드 영향이 있었었나??

잘 기억이 안나네요 ㅎㅎ


그럼 아시아권

일본, 중국, 대만, 필리핀 사람들이 우리나라에 들어온 숫자를 그래프로 비교해볼까요?



연도별로 이렇게 표현할 수 있습니다.

중국이 압도적이네요

일본은 조금 올라가다가 감소했구요

대만, 필리핀은 나름? 증가 추세이지만 들어오는 숫자가 적어 잘 보이지 않네요 ㅎㅎ


이제 더 쉽게 보기 위해서 우리나라에 들어온 국가 top7만을 뽑아서 파이 차트로 봅시다!



아시아주가 거의 절반을 차지하고 중국이 20%정도를 차지하네요.

그리고 그 뒤를 이어 일본, 미주, 구주, 미국 등이 순서를 차지하고 있네요!



우리나라에 여행이나 이런것으로 들어오는 것은 중국한테 완전 인기가 많네요!

아시아주는 정확히 어떤 지역을 말하는지 모르겠네요


자 다음으로 성별 국적별 입국을 분석해보죠!!!



마찬가지로 다른 엑셀파일을 가져옵니다.

그리고 이것또한 위 과정을 거쳐서 전처리를 진행합니다.



새롭게 딕셔너리를 만들어줍니다.



똑같이 , 를 제거해줍니다!



그리고 새로운 데이터 프레임을 만들어줍니다!

그러면 국적 및 성별로 연도별 입국수를 볼 수 있습니다!



top5만 조사해봅니다.

소계 데이터 즉, 전부 합한 데이터를 가지고 조사를해보죠!

먼저 2005년 기준으로 정렬을 해서 어느 국가에서 많이 입국을 했나 봐봅시다.



2005년에는 일본이 압도적으로 많았네요

일본에서 많이 입국했었구요 그 뒤를 이어 중국, 미국 등이 있네요



자 이제 연도별 성별로 분석을 해볼까요??

중국을 기준으로 남성, 여성 입국 수가 어떻게 변화했을까요?



자 이렇게 변화가 되었네요!

남자, 여자 둘다 많이 입국했네요

그 중에서도 중국 여성들이 남성보다 더 많이 들어왔습니다.


자 이제 전체 유입수를 기준으로 우리나라 2018년에 얼마나 유입이 되는지 예측해볼까요?!



예측은 sklearn에 linear regression을 이용합니다.

선형회귀를 이용하는 것이죠.




이렇게 분석이 됩니다.

우리나라에 입국하는 숫자는 점차 증가하는 그래프를 보입니다.

그리고 2018년에는 1600만명 정도가 들어오지 않을까?로 예측하고 있습니다 ㅎㅎ

과연 어떨지요?!


자 이렇게 파이썬으로 공공데이터 분석을 가볍게 해봤습니다~


반응형
그리드형
Comments