Link
12-03 06:17
«   2020/12   »
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
Archives
Today
391
Total
1,187,542
관리 메뉴

꿈 많은 사람의 이야기

파이썬으로 공공데이터를 분석하자 - 고속도로 교통사고 본문

python

파이썬으로 공공데이터를 분석하자 - 고속도로 교통사고

이수진의 블로그 이수진의 블로그 2018. 7. 29. 12:59


데이터를 분석하는데 있어 시각화는 필수입니다

단순히 엑셀, 워드 같은 파일에 숫자만 적혀있는들 그걸 명확하게 볼 수 있지 않습니다.


그 데이터를 시각화해야 눈에 쉽게 보입니다.


데이터 사이언스에서는 이 시각화가 기본입니다.


공공데이터를 기반으로 데이터 시각화 하는 것을 해보려고 합니다.

파이썬(python)을 이용합니다.

파이썬의 matplotlib와 seaborn라이브러리로 시각화를하구요

pandas, numpy등을 사용해 전처리 작업을 진행합니다.



데이터는 위와 같습니다.

다양한 교통사고 데이터가 있는데요

이번 포스팅에서는 2016 부문별 고속도로 교통사고를 분석해봅니다.



안에 데이터를 보면 위와 같이 나와있습니다.

하지만 위와 같은 데이터 형태로 바로 파이썬에서 분석할 수 없습니다.

이 전처리 작업을 위해서

numpy, pandas를 이용합니다.



os.listdir()을 해보니 엑셀 리스트가 보이네요

xls를 통해 해당 파일은 엑셀이란 것을 알 수 있습니다.




이제 데이터 전처리를 진행합니다.

컬럼명을 수정하구요

맨위 4줄은 필요가 없는 데이터네요

이 4줄을 제거합니다.




또한, 중간중간 수군구에 대해서 합계를 하는데요

이 합계 데이터도 딱히 필요없습니다.

나중에 합계를 하는 것은 sum을 이용하면 간단하게 되니까요

제거해줍니다.



자 이제 데이터 전처리가 끝났습니다.

관광객 데이터 같은 경우는 너무 복잡한데

이 데이터는 간단하네요

이제 발생 건수에 대해서 제일 많이 발생된 top 10을 뽑아보죠


가장 많이 발생된 지역입니다.

1위를 성남시가 차지했네요

2위는 용인시

3위는 화성시

4위는 평택시

5위는 천안시

6위는 안성시

7위는 김해시

8위는 원주시

9위는 시흥시

10위는 안산시





발생건수별 사망자수를 파악해봅니다.

발생 건수에 대해서 사망자수는 많지만 무조건 적으로 비례는 하지 않네요



좀 더 명확하게 보기 위해서 발생 건수별 부상자 수를 파악해봅니다.

확실히 부상자수는 비례하는 것을 볼 수 있습니다.



그리고 시도별 사망자수를 비교해보니

경기도가 압도적이네요


이렇게 간단하게 고속도로 교통사고 공공데이터를 이용해서 분석해봤습니다

5 Comments
댓글쓰기 폼