목록Python (135)
꿈 많은 사람의 이야기
꽤나 오래전에 겪었던 에러인데..이제서야 올려본다 파이썬 라이브러리중 판다스(pandas)를 사용하다보면 가끔 이런 에러를 겪는다. Error Tokenizing data. C error : EOF inside string starting at line ~~ 이라는 에러이다. 본인은 이걸 pandas read_csv 등을 할 때 겪었었는데 아무리해도 해결방법을 찾지 못했었다. 그러다가 찾은 해결 방법.. 그냥 새롭게 파일을 만든다. 외부에서 만드는게 아니라 파이썬 내부 코드로 csv 파일을 읽고 그대로 다시 dataframe을 짜서 그걸 다시 csv로 똑같이 저장한다.그러면 이상하게 잘 된다. 혹시 모르니까 파일을 읽을 때 공백 제거해주는 strip을 쓰면 좋다.
파이썬으로 케라스(keras)글을 오랜만에 올립니다.그 동안 공부도 많이 못했고(일을 핑계 삼아..) 여태 공부했던 것들 정리하고 좀 다지는 시간을 가졌습니다. 그리고 개인적으로 관심이 있는 자연어처리(NLP)쪽 프로젝트를 딥러닝 기반으로 개인 프로젝트 식으로 진행했습니다. 주제는 뉴스 카테고리 분류 및 핵심 키워드 추출과 연관 단어 분석입니다.일종의 news category classification 입니다. 여기에 word2vec와 tf-idf를 섞은 것이죠.뭔가 말이 거창하네요. 쓰여진 알고리즘은 다음과 같습니다LSTM(Long Short Term Memory) RNN의 종류Word2vec 단어를 벡터화Tf-idf 문서의 핵심 키워드 추출Logistic regression 사이킷런(scikit-le..
그저께 금요일. 정신없던 오전 일정을 마치고 잠시 점심시간까지 쉴 겸 텐서플로우 코리아 페이스북을 들어갔다근데 갑자기 눈에 확 보이는 소식! IT쪽에서는 농담반 진담반으로 갓카오라고 불리우는 카카오에서 딥러닝 기반 형태소 분석기가 나왔다고 한 소식이었다!헐 이게 뭐지 싶었다.기존에는 보통 konlpy나 nltk를 많이 사용했는데(본인은 mecab, 은전한닢을 자주 사용) 딥러닝 기반 형태소 분석기라니!그래서 좀 시간이 비는 일요일에 해봐야겠다~ 라고 생각하고 있었다.블로그에 올려야하나 말아야 하나 고민도 했는데 마침 케라스 코리아에서 이 주제에서 얘기 하다보니까 공유해달라는 말씀이 있으셔서 이렇게 블로그에 적어본다. (참고로 저는 초보자입니다.. 자연어처리와 딥러닝은 독학으로 시간 날 때 공부하고 있구요..
지난 포스팅에서 빅데이터 도구인 ELK 스택 설치 부분에서 엘라스틱 서치 설치를 진행했고 키바나(kibana)를 설치해서 엘라스틱 서치와 연동했습니다.https://lsjsj92.tistory.com/398https://lsjsj92.tistory.com/396 을 참고하시면 되겠습니다.396이 엘라스틱 서치, 398은 키바나설치 및 엘라스틱 연동입니다. 이번 포스팅에서는 로그스태시(logstash)를 설치하고 엘라스틱 서치와 연동하겠습니다. 엘라스틱 서치와 연동하면 자동으로 키바나와 연동이 됩니다. 왜냐하면 이미 kibana랑 elasticsearch와 연동이 되어 있기 때문입니다. 그리고 파이썬 웹 프레임워크인 Django와 연동해서 화면에 띄어보겠습니다. https://www.elastic.co/k..
해당 코드는 이 깃허브에 존재합니다. (https://github.com/lsjsj92/keras_basic) ------------ 요즘 딥러닝이 완전 핫합니다! 이미지 인식, 영상처리 문장 처리 등 많은 분야에서 사용되고 있는데요 이번 포스팅은 그 중에서 이미지 인식을 해봅니다 어떤 이미지 인식이냐구요? 바로 강아지 품종(종류)를 인식해보는 것입니다! 포메라니안, 불독, 시바, 허스키 등 강아지 종류를 한 번 예측해보죠 언어는 당연히 파이썬을 썼습니다. 라이브러리는 텐서플로 backend를 이용해 케라스(keras)를 사용했습니다. 즉 케라스로 CNN 네트워크를 구성해 훈련해봅니다 먼저 훈련 자료가 필요하겠죠?? 훈련 자료는 크롤링을 해서 가지고 왔습니다. 강아지 종류별로 폴더를 만들었는데요 종류는 ..
파이썬을 사용하다보면 특히 pandas를 많이 이용한다.데이터 처리에 매우 유용하기 때문이다 근데 이 pandas로는 주로 read_csv나 read_excel을 통해서 엑셀 및 csv 데이터를 많이 읽어드렸다.왜냐하면 보통 머신러닝 딥러닝 예제는 csv 파일에 있기 때문. 그러다가 문득 만약 db에 데이터가 있으면 어쩌지? 라는 생각을 했다.그리고 역시가 그 방법은 있었다. 준비는 간단하다. python3 기준으로 진행한다.그리고 db는 mysql로 잡는다! pip install pymysqlpip install sqlalchemy 로 먼저 관련 패키지를 설치한다. 그리고 이처럼 하면 된다.각 밑줄을 그어놓은 것은 환경에 따라 바뀌게 된다.root 부분은 유저1234는 비밀번호dbname은 데이터베이스..
이번 포스팅은 파이썬을 이용해서 공공데이터를 분석합니다. 매년 마다 우리나라에 입국하는 입국자 데이터가 있는데요!뭐 여행으로, 의료목적으로 등등 다양하게 들어옵니다. 그래서 어떤 나라에서, 얼마만큼 사람들이 들어왔는지 분석해봅니다 파이썬(python)을 사용했구요.numpy, pandas, matplot, seaborn 라이브러리를 이용합니다.그리고 간단한 머신러닝 데이터로 로지스틱 회귀(logistic regression)을 사용합니다.이건 사이킷런(scikit learn)을 사용하구요. 자 그럼 시작해볼까요 데이터는 이렇게 되어 있습니다.안에 엑셀 파일을 가지고 데이터를 분석해야 하는데요.먼저 pandas를 이용해 데이터를 불러옵니다. 근데 이 컬럼이 별로 좋지 않아요.분석하기가 쉽지 않습니다.저는 ..
데이터를 분석하는데 있어 시각화는 필수입니다단순히 엑셀, 워드 같은 파일에 숫자만 적혀있는들 그걸 명확하게 볼 수 있지 않습니다. 그 데이터를 시각화해야 눈에 쉽게 보입니다. 데이터 사이언스에서는 이 시각화가 기본입니다. 공공데이터를 기반으로 데이터 시각화 하는 것을 해보려고 합니다.파이썬(python)을 이용합니다.파이썬의 matplotlib와 seaborn라이브러리로 시각화를하구요pandas, numpy등을 사용해 전처리 작업을 진행합니다. 데이터는 위와 같습니다.다양한 교통사고 데이터가 있는데요이번 포스팅에서는 2016 부문별 고속도로 교통사고를 분석해봅니다. 안에 데이터를 보면 위와 같이 나와있습니다.하지만 위와 같은 데이터 형태로 바로 파이썬에서 분석할 수 없습니다.이 전처리 작업을 위해서num..
캐글에서 커널을 추가하는 방법에 대해서 알아봅니다 먼저 캐글 사이트로 이동합니다당연히 회원가입 및 로그인은 하셔야겠죠? 캐글 메인으로 접속하면 위 처럼 화면이 나올겁니다~이제 검색에서 원하는 데이터를 찾아봅시다 저는 캐글에서 가장 기본적인 타이타닉(titanic)데이터를 추가하기로 합니다캐글(kaggle) 뉴비분들이 자주 이용하는 데이터죠저걸 클릭해서 들어갑니다 그러면 저기 kernels이 보일겁니다 저기로 들어갑니다 그러면 여기에서 오른쪽에 new kernel이 보이시죠?저기를 클릭합니다~ 그러면 커널을 선택하라고 창이 나오는데요본인이 원하시는 창을 선택하시면 됩니다스크립트는 마치 파이참(pycharm)과 같구요 오른쪽 notebook은 주피터 노트북(jupyter notebook)과 비슷합니다저는 주..
모든 코드는 아래 깃허브에 올려놓았습니다. https://github.com/lsjsj92/keras_basic 지난번까지 multi classification 이미지 분류를 해봤습니다 하지만 모든 카테고리 분류가 multi이지는 않죠~ 그래서 이번에는 이진 분류(binary classification)을 해보겠습니다 cat dog로 해볼게요 개냐 고양이냐?를 판단하는 이미지 분류 작업입니다 폴더는 2개입니다 cat, dog 즉, 고양이 강아지 이렇게 입니다. 그리고 각 폴더 아래에 이렇게 고양이 사진들이 있죠. 고양이와 강아지(개) 사진은 크롤링해서 긁어 왔습니다 그리고 각 사진은 25000개 정도 있습니다. 데이터는 충분한 것 같네요 keras의 ImageDataGenerator를 굳이 사용안해도 될..