데이터를 분석하는데 있어 시각화는 필수입니다
단순히 엑셀, 워드 같은 파일에 숫자만 적혀있는들 그걸 명확하게 볼 수 있지 않습니다.
그 데이터를 시각화해야 눈에 쉽게 보입니다.
데이터 사이언스에서는 이 시각화가 기본입니다.
공공데이터를 기반으로 데이터 시각화 하는 것을 해보려고 합니다.
파이썬(python)을 이용합니다.
파이썬의 matplotlib와 seaborn라이브러리로 시각화를하구요
pandas, numpy등을 사용해 전처리 작업을 진행합니다.
데이터는 위와 같습니다.
다양한 교통사고 데이터가 있는데요
이번 포스팅에서는 2016 부문별 고속도로 교통사고를 분석해봅니다.
안에 데이터를 보면 위와 같이 나와있습니다.
하지만 위와 같은 데이터 형태로 바로 파이썬에서 분석할 수 없습니다.
이 전처리 작업을 위해서
numpy, pandas를 이용합니다.
os.listdir()을 해보니 엑셀 리스트가 보이네요
xls를 통해 해당 파일은 엑셀이란 것을 알 수 있습니다.
이제 데이터 전처리를 진행합니다.
컬럼명을 수정하구요
맨위 4줄은 필요가 없는 데이터네요
이 4줄을 제거합니다.
또한, 중간중간 수군구에 대해서 합계를 하는데요
이 합계 데이터도 딱히 필요없습니다.
나중에 합계를 하는 것은 sum을 이용하면 간단하게 되니까요
제거해줍니다.
자 이제 데이터 전처리가 끝났습니다.
관광객 데이터 같은 경우는 너무 복잡한데
이 데이터는 간단하네요
이제 발생 건수에 대해서 제일 많이 발생된 top 10을 뽑아보죠
가장 많이 발생된 지역입니다.
1위를 성남시가 차지했네요
2위는 용인시
3위는 화성시
4위는 평택시
5위는 천안시
6위는 안성시
7위는 김해시
8위는 원주시
9위는 시흥시
10위는 안산시
발생건수별 사망자수를 파악해봅니다.
발생 건수에 대해서 사망자수는 많지만 무조건 적으로 비례는 하지 않네요
좀 더 명확하게 보기 위해서 발생 건수별 부상자 수를 파악해봅니다.
확실히 부상자수는 비례하는 것을 볼 수 있습니다.
그리고 시도별 사망자수를 비교해보니
경기도가 압도적이네요
이렇게 간단하게 고속도로 교통사고 공공데이터를 이용해서 분석해봤습니다
'python' 카테고리의 다른 글
파이썬 라이브러리를 활용한 머신러닝 책 후기. 힘들었지만 성공했다 (2) | 2018.08.31 |
---|---|
파이썬으로 공공데이터를 분석하자 - 국내 입국자(여행객 등) 분석 (0) | 2018.08.09 |
파이참(pycharm)과 깃허브(github) 연동하기 (3) | 2018.07.26 |
파이썬 PyQt5 gui 배경 색깔 및 이미지 등 스타일과 디자인 - 1 (0) | 2018.03.13 |
파이썬 업무 자동화 맛보기(파이썬으로 pdf를 엑셀로 업무 자동화) (10) | 2018.02.14 |