목록Python (148)
꿈 많은 사람의 이야기
데이터를 분석하는데 있어 시각화는 필수입니다단순히 엑셀, 워드 같은 파일에 숫자만 적혀있는들 그걸 명확하게 볼 수 있지 않습니다. 그 데이터를 시각화해야 눈에 쉽게 보입니다. 데이터 사이언스에서는 이 시각화가 기본입니다. 공공데이터를 기반으로 데이터 시각화 하는 것을 해보려고 합니다.파이썬(python)을 이용합니다.파이썬의 matplotlib와 seaborn라이브러리로 시각화를하구요pandas, numpy등을 사용해 전처리 작업을 진행합니다. 데이터는 위와 같습니다.다양한 교통사고 데이터가 있는데요이번 포스팅에서는 2016 부문별 고속도로 교통사고를 분석해봅니다. 안에 데이터를 보면 위와 같이 나와있습니다.하지만 위와 같은 데이터 형태로 바로 파이썬에서 분석할 수 없습니다.이 전처리 작업을 위해서num..
캐글에서 커널을 추가하는 방법에 대해서 알아봅니다 먼저 캐글 사이트로 이동합니다당연히 회원가입 및 로그인은 하셔야겠죠? 캐글 메인으로 접속하면 위 처럼 화면이 나올겁니다~이제 검색에서 원하는 데이터를 찾아봅시다 저는 캐글에서 가장 기본적인 타이타닉(titanic)데이터를 추가하기로 합니다캐글(kaggle) 뉴비분들이 자주 이용하는 데이터죠저걸 클릭해서 들어갑니다 그러면 저기 kernels이 보일겁니다 저기로 들어갑니다 그러면 여기에서 오른쪽에 new kernel이 보이시죠?저기를 클릭합니다~ 그러면 커널을 선택하라고 창이 나오는데요본인이 원하시는 창을 선택하시면 됩니다스크립트는 마치 파이참(pycharm)과 같구요 오른쪽 notebook은 주피터 노트북(jupyter notebook)과 비슷합니다저는 주..
모든 코드는 아래 깃허브에 올려놓았습니다. https://github.com/lsjsj92/keras_basic 지난번까지 multi classification 이미지 분류를 해봤습니다 하지만 모든 카테고리 분류가 multi이지는 않죠~ 그래서 이번에는 이진 분류(binary classification)을 해보겠습니다 cat dog로 해볼게요 개냐 고양이냐?를 판단하는 이미지 분류 작업입니다 폴더는 2개입니다 cat, dog 즉, 고양이 강아지 이렇게 입니다. 그리고 각 폴더 아래에 이렇게 고양이 사진들이 있죠. 고양이와 강아지(개) 사진은 크롤링해서 긁어 왔습니다 그리고 각 사진은 25000개 정도 있습니다. 데이터는 충분한 것 같네요 keras의 ImageDataGenerator를 굳이 사용안해도 될..
해당 코드는 https://github.com/lsjsj92 에 있습니다. 참고하시고 스타도 주시면 감사하겠습니다 :) 파이썬으로 케라스(keras)와 사이킷런(scikit-learn)을 독학한지 어느덧 1달이 조금 넘었습니다. 그 동안 카테고리 분류도 해보고, 감정 분석도 해보고(실패....) 여러가지 해보면서 일반적인 머신러닝 알고리즘(서포트 벡터 머신(SVM), 랜덤 포레스트(random forest) 등)이 아닌 케라스로 다층 퍼셉트론(MLP)을 구현해서 해봤습니다. 뭐 아직 다음 단계로 넘어갈 실력은 아니었지만 일단은 여러가지 경험을 쌓고자 이젠 컨볼루션 뉴런 네트워크(convolutional neural networks)를 해보려고 합니다. 컨볼루션 신경망이라고도 불리는데요 케라스에선 컨볼루션..
머신러닝과 딥러닝을 혼자서 독학하면서 여러가지 상황에 맞닥드리게 되고 있다. 어찌저찌 해결을 해나가고 있지만, 어제 같은 경우는 도저히 혼자서 해결이 안되었다. val_loss가 나아지지 않았고, val_acc 즉 정확도가 높아지지 않은 문제가 있었다. 과적합(오버피팅, overfitting) 문제도 아니었다. 케라스에서는 오버피팅을 방지할 수 있다. Dropout이나 callbacks 라이브러리의 modelcheckpoint, earlystopping을 통해서 overfitting을 방지하기 때문이다. 근데 참 웃긴게 아래와 같은 상황이었다. 나는 데이터 셋을 2개로 나누어서 진행했다. 데이터가 너무 커서 경량화를 하나 추가했다. 예를 들어, 기존 데이터가 1G 짜리라면 경량화는 200MB짜리이다. 데..
이전 글인http://lsjsj92.tistory.com/350 에서 파이썬으로 머신러닝을 진행해 뉴스 카테고리 분석을 만들었다.keras(케라스)와 scikit learn(사이킷런)을 이용해서 만든 카테고리 분류이다 이번에는 이 데이터를 이용해서파이썬에서 wordcloud(워드클라우드)로 시각화를 진행할 것이다.또한, gensim의 word2vec를 이용해서 연관 단어를 추출해보려고 한다 일단 워드클라우드가 되려면 mapreduce(맵리듀스)가 되어 있어야 한다.즉, word count(워드 카운트)가 되어 있어야 한다. 그리고 그 워드 카운트는 가장 많이 카운트 된 단어가 위쪽으로 나오게 할 것이다.이 과정에선 hadoop hdfs와 spark를 이용할 것이다하둡은 2.7 버전, 스파크는 2.0.3 ..
최근 네이버 뉴스 기사를 토대로 카테고리를 분류하는 머신러닝을 진행해봤다먼저 정치, 경제, 사회, IT 등을 파이썬으로 크롤링했다 데이터는 아래와 같이 모아졌다 각 카테고리별 폴더로 데이터를 떨궜다.문화, 경제, it, 오피니언, 정치, 사회 총 6개의 카테고리를 크롤링했으며 위와 같이 엑셀파일에 날짜, 제목, 내용을 긁어왔다. 이제 이 내용들을 전처리 작업 및 형태소 분석을 해야했다.왜냐하면 content에 보면 위와 같이 flash 오류를 우회하기 위한 함수 추가 등 이런 문구가 있다.또한, 특수 문자를 제거할 것이었고, 숫자, 영어도 제거하려고 했다.왜냐하면 한글을 기준으로 하려고 했기 때문이다 형태소 분석기는 은전한닢(mecab)으로 진행했다.은전한닢은 한글 형태소 분석기로 정말 좋다 konlpy..
파이썬 PyQt5를 하다보면 뭔가 밋밋할 때가 있습니다 디자인이 있으면 좋겠다~ 라는 생각이 들죠 혹시나해서 찾아봤는데 역시 있더라구요근데.. 뭐 생각보다 이쁘지는 않지만 그래도 안한 것보단 낫더라구요 ㅎㅎ PyQt5에서 이미지나 색깔로 디자인(스타일)입히는 방법입니다.글씨 색깔이나 background 색깔 및 이미지를 입힐 수 있죠 이 디자인 포스팅은 2번에 걸쳐 진행하겠습니다~ 먼저 첫번째 포스팅입니다. 먼저 PyQt5에 있는 QtGui에서 import를 합니다.이미지 설정을 위해서 가져옵니다. QImage를 통해 이미지를 가지고옵니다.상대경로, 절대경로 둘다 됩니다여러분이 하고 싶은 방법으로 하시면 되어요 ㅎㅎ그리고 사이즈 조절을 하고QPalette 즉, 파레뜨를 만들어 줍니다. setBrush는 ..
최근 지진에 대해서 계속 이슈가 나오고 있습니다 얼마전 포항에서도 지진이 터졌구요 해외에서도 대만 지진 등 지속적인 지진에 대한 이슈가 터져나오고 있습니다 그래서 공부도 해볼겸 파이썬 웹 크롤링을 이용해서 야매? 지진 알람계를 만들어 볼까 생각중입니다.방법은 제가 지진계가 있는 것도 아니고 해서 우회적인 방법을 이용했어요바로 지진 커뮤니티(갤러리)를 이용하는 것이죠 디시인사이드의 지진갤러리를 이용하려고 합니다 여기는 지진이 일어나면 게시글이 엄청 올라옵니다그래서 이 게시물들을 크롤링해서 키워드 분석 후 알람을 울리게 하려는 방식으로 해보려 합니다 디씨인사이드를 사용한 이유는 가장 활발한 갤러리이기 때문입니다다른 여타 지진 갤러리보다 여기가 제일 활발합니다그리고 기술적인 이유도 있습니다 게시물 번호로 접근..
지난 포스팅에 화도사랑의교회 목사님을 만나 봽고 프로그래밍을 수정했어요그리고 지인분께 직접 사용해보면서 테스트 해보라고 건내주었죠분명히 저는 편리하지만 지인분께는 불편한점이 있을 것이고 또 요구되는 기능이 있을 것이기 때문에요 그렇게 테스트 결과 추가적인 요구사항이 나왔어요 ㅎㅎ 역시 위 텍스트 사진과 같습니다추가적으로 수정, 삭제 기능이 있었으면 좋겠다고 했어요 3자리마다 , 가 찍힌다는 것은 1,000 과 같은 기능입니다그리고 입금에 대해선 같은 날짜, 같은 수입 종류에 대해 반복 작업이 있으니까 날짜, 종류에 대해선 값이 유지되고이름, 금액 값만 바뀌도록 원하셨어요 그리고 저도 몰랐던 사실인데 음 금액이 들어올 때 한 사람의 이름으로 안들어오는 경우도 있다고 하네요철수, 영희가 부부이면 철수, 영희..