목록python (103)
꿈 많은 사람의 이야기
꽤나 오래전에 겪었던 에러인데..이제서야 올려본다 파이썬 라이브러리중 판다스(pandas)를 사용하다보면 가끔 이런 에러를 겪는다. Error Tokenizing data. C error : EOF inside string starting at line ~~ 이라는 에러이다. 본인은 이걸 pandas read_csv 등을 할 때 겪었었는데 아무리해도 해결방법을 찾지 못했었다. 그러다가 찾은 해결 방법.. 그냥 새롭게 파일을 만든다. 외부에서 만드는게 아니라 파이썬 내부 코드로 csv 파일을 읽고 그대로 다시 dataframe을 짜서 그걸 다시 csv로 똑같이 저장한다.그러면 이상하게 잘 된다. 혹시 모르니까 파일을 읽을 때 공백 제거해주는 strip을 쓰면 좋다.
파이썬을 사용하다보면 특히 pandas를 많이 이용한다.데이터 처리에 매우 유용하기 때문이다 근데 이 pandas로는 주로 read_csv나 read_excel을 통해서 엑셀 및 csv 데이터를 많이 읽어드렸다.왜냐하면 보통 머신러닝 딥러닝 예제는 csv 파일에 있기 때문. 그러다가 문득 만약 db에 데이터가 있으면 어쩌지? 라는 생각을 했다.그리고 역시가 그 방법은 있었다. 준비는 간단하다. python3 기준으로 진행한다.그리고 db는 mysql로 잡는다! pip install pymysqlpip install sqlalchemy 로 먼저 관련 패키지를 설치한다. 그리고 이처럼 하면 된다.각 밑줄을 그어놓은 것은 환경에 따라 바뀌게 된다.root 부분은 유저1234는 비밀번호dbname은 데이터베이스..
요즘 머신러닝을 공부하면서 여러가지 책들을 많이 찾고 있다.근데 마땅히 끌리는 책이 없더라.. 나는 머신러닝 기초부터 배우고 싶었는데 기초에 대한 설명은 거의 없고사이킷런 라이브러리 사용하는 방법에 대해서만 설명이 주구장창 나와있는 책이 대부분이었다.물론 라이브러리 사용하는 책들도 썩 맘에 드는 책은 없었다 아.. 그래서 어쩌지 유료 강의를 들어야하나.. 돈은 없는데 하는데 지인이 일단 뭐라든 시작은 해보라고 책을 추천해주었다. 파이썬 라이브러리를 활용한 머신러닝 이미 유명한 책이다.사이킷런 라이브러리를 개발한 개발자가 쓴 책이다. 이 책을 시작한지 벌써 1달.. 진짜 힘들었다.처음에는 뭔 말인지 이해도 안되고 왜 책을 이딴식으로 썼지 라는 생각뿐이었다.포기할까 생각도 많이 했지만.. 결국 끝끝내 성공했..
이번 포스팅은 파이썬을 이용해서 공공데이터를 분석합니다. 매년 마다 우리나라에 입국하는 입국자 데이터가 있는데요!뭐 여행으로, 의료목적으로 등등 다양하게 들어옵니다. 그래서 어떤 나라에서, 얼마만큼 사람들이 들어왔는지 분석해봅니다 파이썬(python)을 사용했구요.numpy, pandas, matplot, seaborn 라이브러리를 이용합니다.그리고 간단한 머신러닝 데이터로 로지스틱 회귀(logistic regression)을 사용합니다.이건 사이킷런(scikit learn)을 사용하구요. 자 그럼 시작해볼까요 데이터는 이렇게 되어 있습니다.안에 엑셀 파일을 가지고 데이터를 분석해야 하는데요.먼저 pandas를 이용해 데이터를 불러옵니다. 근데 이 컬럼이 별로 좋지 않아요.분석하기가 쉽지 않습니다.저는 ..
데이터를 분석하는데 있어 시각화는 필수입니다단순히 엑셀, 워드 같은 파일에 숫자만 적혀있는들 그걸 명확하게 볼 수 있지 않습니다. 그 데이터를 시각화해야 눈에 쉽게 보입니다. 데이터 사이언스에서는 이 시각화가 기본입니다. 공공데이터를 기반으로 데이터 시각화 하는 것을 해보려고 합니다.파이썬(python)을 이용합니다.파이썬의 matplotlib와 seaborn라이브러리로 시각화를하구요pandas, numpy등을 사용해 전처리 작업을 진행합니다. 데이터는 위와 같습니다.다양한 교통사고 데이터가 있는데요이번 포스팅에서는 2016 부문별 고속도로 교통사고를 분석해봅니다. 안에 데이터를 보면 위와 같이 나와있습니다.하지만 위와 같은 데이터 형태로 바로 파이썬에서 분석할 수 없습니다.이 전처리 작업을 위해서num..
개발하는 사람들은 거의 필수적으로 깃을 이용합니다깃(git)은 오픈소스로서 일종의 버전관리에 매우 최적화된 것인데요 이것을 이용해 웹 상에서 서비스를 제공해주는 깃허브너무 많이 사용하고 있습니다. 이 깃허브(github)와 파이참(pycharm)을 연동하는 방법을 설명해볼까합니다. 먼저 https://github.com으로 이동하셔서회원가입을 해줍니다!그리고 repository(저장소)를 하나 생성하죠 저는 주로 keras를 사용해서repository 이름을 keras로 하나 생성했습니다. 이것은 그냥 테스트를 위해서 이렇게 올린거구요원래는 좀 명확하게 이름을 지어주셔야 합니다.아무튼 이제 파이참으로 넘어가서 연동해보죠 파이참의 VCS -> Github가 있을겁니다.Github가 없으면 Git으로 해도 ..
파이썬 PyQt5를 하다보면 뭔가 밋밋할 때가 있습니다 디자인이 있으면 좋겠다~ 라는 생각이 들죠 혹시나해서 찾아봤는데 역시 있더라구요근데.. 뭐 생각보다 이쁘지는 않지만 그래도 안한 것보단 낫더라구요 ㅎㅎ PyQt5에서 이미지나 색깔로 디자인(스타일)입히는 방법입니다.글씨 색깔이나 background 색깔 및 이미지를 입힐 수 있죠 이 디자인 포스팅은 2번에 걸쳐 진행하겠습니다~ 먼저 첫번째 포스팅입니다. 먼저 PyQt5에 있는 QtGui에서 import를 합니다.이미지 설정을 위해서 가져옵니다. QImage를 통해 이미지를 가지고옵니다.상대경로, 절대경로 둘다 됩니다여러분이 하고 싶은 방법으로 하시면 되어요 ㅎㅎ그리고 사이즈 조절을 하고QPalette 즉, 파레뜨를 만들어 줍니다. setBrush는 ..
이런 저런 공부하다가혹시 파이썬으로 자동화 업무를 가능하게 할 수 있을까? 라는 생각이 들었습니다 지인한테 들었던 이야기가 컸죠"pdf 파일에 있는 글귀를 엑셀로 옮기는데, 컨트롤c, 컨트롤 v만 하고 있다. 이걸 자동적으로 할 수 있는 방법이 있나?"이 얘기를 듣고 한 번 해보려고 했습니다 최근 서점에서 관련된 책도 파는데 ㅠ 돈이 없어서 못샀...취업을 빨리 해야지 에휴... 아무튼 저는 그래서 그냥.. 제 생각으로 구글링과 잡 코드로 해봤습니다 일단 파이썬을 이용해 pdf를 엑셀로 옮기는 작업을 해보려고 합니다 파이썬으로 엑셀을 이용하는 방법은 위 소스와 같습니다ExcelApplication을 가지고 오면 되죠그리고 실행시 보여지는지 여부를 True로 설정하고, 시트를 추가합니다 그리고 이전 포스트..
프로그램을 하다 보면 파일 입출력 뿐 아니라 pdf 파일, 워드 파일 등을 읽을 필요성이 있습니다워드 파일은 굳이 아직 따로 찾아보질 않아서 모르겠네요아마 있는 걸로 알고 있습니다 그리고 당연히 파이썬에서도 PDF 파일을 읽는 방법이 있습니다pdfminer를 이용하면 되는데요 pdf 파일을 읽는 방법 설치부터 예제까지 살펴보죠! 파이썬 pdf 연동 방법에 대해 설치 방법을 구글에 치면 다양한 방법이 나오는데요뭐가 다 제대로 되질 않더라구요설치가 되질 않거나, 설치가 되어도 예제가 되질 않거나.. 패키지만 한 3~4개 설치한 것 같은데 다 안됐습니다..근데 이 방법 하니까 pdf 파일을 읽을 수 있었습니다 pdfminer 를 설치하는데요그냥 pip3 install pdfminer를 입력하면 되질 않습니다...
지난 포스팅에 지진 알림을 만들어보는 대략적인 컨셉을 잡아보았습니다일단은.. 파이썬 beautifulsoup을 사용하려고 했는데 순수 beautifulsoup은 먹히지가 않았습니다.그래서 파이썬 뷰티플수프와 셀레니움을 함께 이용했습니다아.. 속도가 좀 많이 느리네요 그래서아무튼 대략적인 프로그램은 완성되었습니다 ㅎㅎ 게시글을 가져오면 저 위의 키워드와 매칭을 해봅니다저 키워드가 있으면예를 들어 ( 방금 포항에서 지진이 일어났어)(경주인데 흔들린 것 같은데?)등의 흔들, 지진 등의 키워드가 속해져 있으면 지진이 일어났다고 가정을 하면서 진행됩니다 그리고 시간은 1시간 30분으로 잡았습니다지진이 일어나도 생각보다 많이 글이 안올라오더군요이게 지진의 강도가 쎄면 많이 올라오는데, 약하면 많이 올라오지 않아서 ..