세로형
Recent Posts
Recent Comments
Link
04-24 00:01
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
관리 메뉴

꿈 많은 사람의 이야기

파이썬으로 데이터 분석하기 - 어느 주유소가 기름값이 저렴할까? 주유소 기름값 분석하기! 본문

python

파이썬으로 데이터 분석하기 - 어느 주유소가 기름값이 저렴할까? 주유소 기름값 분석하기!

이수진의 블로그 2018. 12. 31. 09:59

올만에 올리는 파이썬 데이터 분석글입니다.

이번 파이썬 데이터 분석글은 주유소 데이터를 분석하는 것 입니다!

요즘 기름값이 많이 싸졌죠?

기름값이 저렴해진 이후로 서울 각 구 마다 어디가 저렴한지를 분석해봤습니다.

그리고 셀프 주유일 떄와 아닐 때와 가격 차이도 봐보겠습니다~




저는 데이터를 opinet에서 가져왔습니다.

이 사이트는 저렴한 주유소를 잘 소개한 사이트입니다.

그렇기 때문에 모든 주유소 데이터는 존재하지 않습니다.

가령 많이 비싸거나 등등 데이터는 없더라구요

하지만 사람들은 저렴한 기름값(휘발유나 경유 등)을 원하니까요 ㅎㅎ



이런 사이트인데요

저렇게 서울시 예를 들어 강남구, 서초구, 노원구, 도봉구 등을 선택하면

주유소를 추천해주면서 휘발유와 경유의 값을 보여줍니다.

그리고 무엇보다! 엑셀로 받을 수 있습니다.

엑셀 저장을 통해 가져옵니다.




이렇게 모든 구를 다 받아오면 파일이 떨궈집니다.

이 데이터로 분석을 해보죠!

과연 휘발유와 경유의 가격은 어디가 저렴하고 이 사이트 기준 비싼대는 어디이며

또한 셀프 주유소와 셀프가 아닌 주유소의 휘발유, 경유의 가격 차이는 어떨까요?



첫 번째 파일을 읽어보면 위와 같이 나옵니다.

근데 보시는 바와 같이 header 부분이 unnamed와 같이 되어 있네요



파이썬 pandas에는 이럴때 유용하게 사용할 수 있는 header option이 있습니다.

pd.read_excel('', header=2)를 통해 가져옵니다.

그럼 위와 같이 잘 나오죠!



그리고 컬럼 내용을 보겠습니다

pandas.columns을 하면 되는데요

저는 현재 dataframe구조를 test에 넣었기에 test.columns를 봅니다.

지역, 상호, 주소, 상표, 전화번호, 셀프여부, 고급휘발유, 휘발유, 경유, 실내등유의 컬럼이 있네요



그리고 dataframe.info를 보면 정보를 볼 수 있는데요

가격 정보가 object로 되어 있네요

나중에 수정해야겠죠?



자 이제 본격적으로 데이터를 가져옵니다.

file_name으로 데이터를 for문으로 가져옵니다.

그리고 pandas데이터로 concat합니다.



전부 합쳐졌네요!

전화번호는 좀 가렸습니다.



그리고 분석하는데 정보를 추려서 가지고 옵니다.

예를 들어 전화번호 등은 필요없죠!

그래서 상호(주유소 이름)과 주소, 휘발유가격, 경유가격, 셀프여부, 상표(S-OIL, GS칼텍스, SK에너지 등)을 가지고 옵니다.



그리고 주소에서 어느 구에 위치하는지 따로 빼줍니다.

예를 들어 강남구인지, 강서구인지, 구로구인지, 노원구 인지 등이요!

근데 위에 보니까 특별시, 서울특별시 라는 것이 있네요.

데이터가 안맞는 데이터가 존재하네요



보니까 도봉구 방학로에 있는 에스오일과 성동구 동일로에 있는 SK에너지입니다.




각각을 도봉구, 성동구로 바꿔줍니다.

data.loc[data['구']=='특별시', '구'] = '도봉구'

이런식으로 바꿔주시면 됩니다.




그리고 아까 봤던 object로 표시되어 있던 휘발유 가격과 경유 가격.

이것도 바꿔줘야겠죠?



근데 에러가 나오네요?



뭐 이상한 값이 있나보네요. - 라는 값이네요



아마도 휘발유와 경유가 없는? 뭐 그런 것 같습니다.



휘발유 가격과 경유 가격이 둘 다 없는 곳도 있었고 저렇게 하나는 있는 것도 있었습니다.

저것들을 제거합니다.



아까보다 개수가 10개가 줄었네요. 제거 했습니다



자 이제 float로 잘 바꿔집니다.

astype(float)로 바꾸시면 됩니다.


이제 전처리가 끝났습니다.

본격적으로 데이터를 분석해보죠!


먼저 셀프일 때 가격 차이를 보겠습니다.



휘발유 기준으로 셀프일 때와 아닐 때를 비교하는데요

초록색이 셀프입니다.

셀프일 때가 확실히 저렴하죠?

SK에너지, GS칼텍스, 에스오일(S-OIL), 현대오일뱅크, 알뜰(ex), NH-OIL, 알뜰주유소 등이 보이네요



그 다음은 경유 기준으로 셀프일 때와 아닐 때를 보죠

마찬가지로 저렴합니다. 

이제 휘발유 가격과 경유 가격이 해당 사이트에서 제공해준 데이터 기준으로

가장 저렴한 곳 10곳과 가장 비싼 곳 10곳을 보겠습니다.



휘발유 가격 top 10입니다.

현대오일뱅크 한양주유소가 휘발유 가격 2062원으로 가장 비싸네요

그리고 뉴서울(강남)점(SK에너지)이 2015.0원으로 가장 비싸구요

그 다음으로 제3한강 주유소, 서남주유소, 장충 주유소 등이 나열되어 있습니다.



그 다음으로 경유 가격 제일 비싼 곳 10곳을 보겠습니다.

서남 주유소(SK에너지)가 경유 가격 1948원으로 가장 비싸네요.

그 밑으로 뉴서울(강남)(SK에너지)rk dlTrh

장충주유소(SK에너지), 역전주유소(GS칼텍스) 등이 그 밑을 이어서 있습니다.



그럼 휘발유 가격이 저럼한 곳을 봐볼까요?

무려 비싼곳과 최대 700원 이상 차이가 납니다! 어마어마한 가격 차이네요

타이거주유소(서울 은평구, SK에너지)가 휘발유 가격 1294.0원 입니다 ㄷㄷ

그리고 수색훼미리주유소(현대오일뱅크)도 1294.0원이네요

그리고 강서구에 있는 강서오곡셀프주유소(SK에너지)가 1297원 등으로 되어 있네요



다음으로 경유 가격을 볼까요?

경유도 가격차이가 최대 7~800원 차이가 납니다.

여기도 타이거주유소(SK에너지)가 경유가격 1186원으로 가장 저렴하네요

그 다음 수색훼미리주유소(현대오일뱅크), 만남의광장주유소(알뜰ex), 수색뉴타운(GS칼텍스) 등이 순서를 잇고 있습니다.



지도로 표기하면 위와 같습니다.

파란색이 저렴한 곳이고 위는 휘발유 가격입니다.



여기는 경유 가격 기준이구요!

어떤가요?

꽤나 흥미롭지요?


이렇게 파이썬으로 간략하게 데이터 분석을 해보았습니다.

벌써 18년 마지막 12월 31일입니다.

모두들 18년 마지막 날. 마무리 잘 하시길 바랍니다.

2019년 새해 복 많이 받으세요

반응형
그리드형
Comments