목록Python (136)
꿈 많은 사람의 이야기
모든 코드는 아래 깃허브에 올려놓았습니다. https://github.com/lsjsj92/keras_basic 지난번까지 multi classification 이미지 분류를 해봤습니다 하지만 모든 카테고리 분류가 multi이지는 않죠~ 그래서 이번에는 이진 분류(binary classification)을 해보겠습니다 cat dog로 해볼게요 개냐 고양이냐?를 판단하는 이미지 분류 작업입니다 폴더는 2개입니다 cat, dog 즉, 고양이 강아지 이렇게 입니다. 그리고 각 폴더 아래에 이렇게 고양이 사진들이 있죠. 고양이와 강아지(개) 사진은 크롤링해서 긁어 왔습니다 그리고 각 사진은 25000개 정도 있습니다. 데이터는 충분한 것 같네요 keras의 ImageDataGenerator를 굳이 사용안해도 될..
해당 코드는 https://github.com/lsjsj92 에 있습니다. 참고하시고 스타도 주시면 감사하겠습니다 :) 파이썬으로 케라스(keras)와 사이킷런(scikit-learn)을 독학한지 어느덧 1달이 조금 넘었습니다. 그 동안 카테고리 분류도 해보고, 감정 분석도 해보고(실패....) 여러가지 해보면서 일반적인 머신러닝 알고리즘(서포트 벡터 머신(SVM), 랜덤 포레스트(random forest) 등)이 아닌 케라스로 다층 퍼셉트론(MLP)을 구현해서 해봤습니다. 뭐 아직 다음 단계로 넘어갈 실력은 아니었지만 일단은 여러가지 경험을 쌓고자 이젠 컨볼루션 뉴런 네트워크(convolutional neural networks)를 해보려고 합니다. 컨볼루션 신경망이라고도 불리는데요 케라스에선 컨볼루션..
머신러닝과 딥러닝을 혼자서 독학하면서 여러가지 상황에 맞닥드리게 되고 있다. 어찌저찌 해결을 해나가고 있지만, 어제 같은 경우는 도저히 혼자서 해결이 안되었다. val_loss가 나아지지 않았고, val_acc 즉 정확도가 높아지지 않은 문제가 있었다. 과적합(오버피팅, overfitting) 문제도 아니었다. 케라스에서는 오버피팅을 방지할 수 있다. Dropout이나 callbacks 라이브러리의 modelcheckpoint, earlystopping을 통해서 overfitting을 방지하기 때문이다. 근데 참 웃긴게 아래와 같은 상황이었다. 나는 데이터 셋을 2개로 나누어서 진행했다. 데이터가 너무 커서 경량화를 하나 추가했다. 예를 들어, 기존 데이터가 1G 짜리라면 경량화는 200MB짜리이다. 데..
이전 글인http://lsjsj92.tistory.com/350 에서 파이썬으로 머신러닝을 진행해 뉴스 카테고리 분석을 만들었다.keras(케라스)와 scikit learn(사이킷런)을 이용해서 만든 카테고리 분류이다 이번에는 이 데이터를 이용해서파이썬에서 wordcloud(워드클라우드)로 시각화를 진행할 것이다.또한, gensim의 word2vec를 이용해서 연관 단어를 추출해보려고 한다 일단 워드클라우드가 되려면 mapreduce(맵리듀스)가 되어 있어야 한다.즉, word count(워드 카운트)가 되어 있어야 한다. 그리고 그 워드 카운트는 가장 많이 카운트 된 단어가 위쪽으로 나오게 할 것이다.이 과정에선 hadoop hdfs와 spark를 이용할 것이다하둡은 2.7 버전, 스파크는 2.0.3 ..
최근 네이버 뉴스 기사를 토대로 카테고리를 분류하는 머신러닝을 진행해봤다먼저 정치, 경제, 사회, IT 등을 파이썬으로 크롤링했다 데이터는 아래와 같이 모아졌다 각 카테고리별 폴더로 데이터를 떨궜다.문화, 경제, it, 오피니언, 정치, 사회 총 6개의 카테고리를 크롤링했으며 위와 같이 엑셀파일에 날짜, 제목, 내용을 긁어왔다. 이제 이 내용들을 전처리 작업 및 형태소 분석을 해야했다.왜냐하면 content에 보면 위와 같이 flash 오류를 우회하기 위한 함수 추가 등 이런 문구가 있다.또한, 특수 문자를 제거할 것이었고, 숫자, 영어도 제거하려고 했다.왜냐하면 한글을 기준으로 하려고 했기 때문이다 형태소 분석기는 은전한닢(mecab)으로 진행했다.은전한닢은 한글 형태소 분석기로 정말 좋다 konlpy..
파이썬 PyQt5를 하다보면 뭔가 밋밋할 때가 있습니다 디자인이 있으면 좋겠다~ 라는 생각이 들죠 혹시나해서 찾아봤는데 역시 있더라구요근데.. 뭐 생각보다 이쁘지는 않지만 그래도 안한 것보단 낫더라구요 ㅎㅎ PyQt5에서 이미지나 색깔로 디자인(스타일)입히는 방법입니다.글씨 색깔이나 background 색깔 및 이미지를 입힐 수 있죠 이 디자인 포스팅은 2번에 걸쳐 진행하겠습니다~ 먼저 첫번째 포스팅입니다. 먼저 PyQt5에 있는 QtGui에서 import를 합니다.이미지 설정을 위해서 가져옵니다. QImage를 통해 이미지를 가지고옵니다.상대경로, 절대경로 둘다 됩니다여러분이 하고 싶은 방법으로 하시면 되어요 ㅎㅎ그리고 사이즈 조절을 하고QPalette 즉, 파레뜨를 만들어 줍니다. setBrush는 ..
최근 지진에 대해서 계속 이슈가 나오고 있습니다 얼마전 포항에서도 지진이 터졌구요 해외에서도 대만 지진 등 지속적인 지진에 대한 이슈가 터져나오고 있습니다 그래서 공부도 해볼겸 파이썬 웹 크롤링을 이용해서 야매? 지진 알람계를 만들어 볼까 생각중입니다.방법은 제가 지진계가 있는 것도 아니고 해서 우회적인 방법을 이용했어요바로 지진 커뮤니티(갤러리)를 이용하는 것이죠 디시인사이드의 지진갤러리를 이용하려고 합니다 여기는 지진이 일어나면 게시글이 엄청 올라옵니다그래서 이 게시물들을 크롤링해서 키워드 분석 후 알람을 울리게 하려는 방식으로 해보려 합니다 디씨인사이드를 사용한 이유는 가장 활발한 갤러리이기 때문입니다다른 여타 지진 갤러리보다 여기가 제일 활발합니다그리고 기술적인 이유도 있습니다 게시물 번호로 접근..
지난 포스팅에 화도사랑의교회 목사님을 만나 봽고 프로그래밍을 수정했어요그리고 지인분께 직접 사용해보면서 테스트 해보라고 건내주었죠분명히 저는 편리하지만 지인분께는 불편한점이 있을 것이고 또 요구되는 기능이 있을 것이기 때문에요 그렇게 테스트 결과 추가적인 요구사항이 나왔어요 ㅎㅎ 역시 위 텍스트 사진과 같습니다추가적으로 수정, 삭제 기능이 있었으면 좋겠다고 했어요 3자리마다 , 가 찍힌다는 것은 1,000 과 같은 기능입니다그리고 입금에 대해선 같은 날짜, 같은 수입 종류에 대해 반복 작업이 있으니까 날짜, 종류에 대해선 값이 유지되고이름, 금액 값만 바뀌도록 원하셨어요 그리고 저도 몰랐던 사실인데 음 금액이 들어올 때 한 사람의 이름으로 안들어오는 경우도 있다고 하네요철수, 영희가 부부이면 철수, 영희..
화도사랑의교회 재정 프로그램 만드는 것이 거의 막바지에 다왔습니다 일단, 화면 깨지는 것 GUI 화면은 화도사랑의교회 지인분께도 보여드렸고 괜찮다고 말씀하셨습니다그리고 추가 사항이 있었습니다 1. 맨 처음 패스워드 로그인2. 텍스트 파일 출력3. 데이터 백업 이 3가지 기능이 있었으면 좋겠다고 하셨습니다이제 교회 재정프로그램 모습이 거의 다 갖추어져 갑니다! 그래서 이 3가지 기능을 추가했습니다 먼저 비밀번호입니다 맨 처음 시작하기 전에 main이 나오기 전, 해당 레이아웃이 먼저 실행되게 진행했습니다그리고 비밀번호가 맞으면 넘어가도록 진행했구요 그리고 텍스트 파일 출력 및 데이터 백업 탭을 추가했습니다2개의 탭이 새로 추가되었네요 다른 여타 탭 기능과 마찬가지로 역시 함수화 시켰습니다각 기능에 대한 것..
pyqt5에서 입력하는 것이 기본적으로 QLineEdit이 있습니다 하지만 이 클래스를 사용해서 입력받으면 말 그대로 오픈형태로 노출됩니다. 아이디를 입력하는 창처럼 말이죠! 하지만 비밀번호는 ** 처럼 표시가 되어야 합니다 pyqt5에서 비밀번호(password) 설정하는 방법이 있습니다! 똑같이 QLineEdit 클래스 객체를 받습니다그리고 이제 여기서 설정을 해줘야하는데요setEchoMode함수를 통해 설정해줍니다.QLineEdit.Password 를 통해 패스워드 설정을 해주면 됩니다여기서 조심! P