목록공부 (172)
꿈 많은 사람의 이야기
최근 캐글을 자주하고 있습니다.(새벽 5시 시리즈를 올려야하는데.. 블로그 글 쓸 시간이 만만치 않아서 못올리고 있습니다 ㅠ)근데 캐글을 하면서 알 수 없는 에러를 자주 겪었습니다.그것에 대해서 몇 개 정리해보려고 합니다. 먼저 아래와 같은 사진 이슈입니다. timeout waiting for IOPub output 이라는 warning이 나옵니다.음 그렇게 치명적인 오류는 아닌 것 같은데요. 저는 이게 나오면서 커널이 멈추는 현상이 나왔습니다(kernel stopping)알고보니 이게 모델을 훈련 하는 등의 과정에서 output이 나오는데요.예를 들어 verbose값이 1이거나 이런 상황에서요. 이런 출력이 좀 무리?가 되는 것이 있나봅니다.verbose = 0으로 하면 별 문제없이 해결됩니다. 그리고..
어느덧 새벽 5시 캐글(kaggle) 2주차이다!지난 게시글에서 타이타닉(titanic) 캐글 커널을 필사했었다하지만 결과는 그리 좋지 못했었는데 오늘은 그것을 보완하는 작업을 한다 이번 필사 작업의 참조 커널은 https://www.kaggle.com/yassineghouzam/titanic-top-4-with-ensemble-modeling/notebook 에서 참고하였다! 이것을 필사? 참고 후 현재 나의 캐글 상태이다.캐글 코리아에서 주최한 2019 1st ML month with KaKR 대회 성적은 별로지만밑에 titanic : machine learning 부분의 대회는 상위 6% 성적을 보였다. 이 글은 주로 seaborn의 factorplot을 자주 이용했다.factorplot을 사용하면..
새해 첫 목표를 두고 있는 새벽 5시 캐글 필사 편 1주차 내용이다. 사실 원래 다른 데이터로 진행하려고 했는데 어쩌다 보니 타이타닉으로 넘어왔다. 머신러닝 탐구생활이라는 책으로 시작하려고 했지만 쉽지 않았기 때문이다. 또한, 데이터 분석을 한동안 안했더니 감을 잃은 것도 컸다. 그리고 마침 페이스북 그룹인 캐글 코리아(kaggle korea)에서 대회를 타이타닉을 주제로 하고 있기에 타이타닉으로 진행했다. 이 과정에서 1주일이 날라갔다 ㅠ 그래서 타이타닉 편으로 시작! 이 필사는 다양한 커널을 참조했다. 타이타닉 커널을 보면 open되어 있는 커널 중 인기 많은 커널 2개와 약간의 내 아이디어? 를 짬뽕시켜서 진행했다. 많이 참조한 대표적인 커널은 https://www.kaggle.com/ash316/..
윈도우에서 도커를 사용하기가 쉽지 않다.정말 많은 에러와 이상한 상황에 직면하게 된다.(최근에는 컴퓨터를 재부팅했더니 이미지와 컨테이너가 다 사라졌다..... 하아)윈도우에서 도커 툴 툴박스(docker tool box)나 docker for windows를 쓰게 되는데 본인은 pc 2대에서 저 2개를 각각 사용한다. 그 중 도커 툴 박스에서 나온 에러에 대해서 말하고자 한다. “This is computer is running Hyper-V. VirtualBox won’t boot a 64bits VM when Hyper-V is activated. Either use Hyper-V as a driver, or disable the Hyper-V hypervisor. (…)” 이런 에러였다. hyper..
연말이 다가 오면서 목표했던 것들이 서서히 다 끝나간다.특히 최근에는 회사 일 때문에 딥러닝 공부를 아예 못하고 있는데개인적으로는 너무너무 딥러닝이 하고싶었다. 그래서 최근에 나혼 케라스 창시자에게 배우는 딥러닝 이라는 책을 샀다.프랑소와 숄레가 지었고 박해선님이 옮겨주셨다. 개인적으로 공부할 시간이 없었다. 맨날 야근해서 공부하고, 주말엔 모두의 연구소 스터디도 가고 그거 정리하고 하면 그냥 한 주가 끝났다.근데 너무 딥러닝이 하고 싶었다. 이미 뒤쳐지고 있는데 더 뒤쳐지기가 무서웠기 때문이다. 그래서 결심한 것이 새벽 5시 기상 후 공부!이다. 나는 이 책을 새벽 5시에 일어나서 출근 준비 전까지 1시간 30분 정도 공부했다.이걸 2주동안 반복하니까 책을 한 번 다 읽게 되었다.(물론 코드는 못쳐보고..
안녕하세요. 날씨가 많이 춥네요벌써 연말입니다. 모두들 2018년 마지막 마무리 잘 하시길 바라구요. 행복한 2019년을 맞이하시길 바랍니다! 이번에는 도커( docker) 환경에다가 하둡2(hadoop)와 스파크(spark)를 설치하는 과정을 포스팅 하려고 합니다.이번 포스팅은 하둡만 설치해보고 다음 포스팅에서 스파크를 설치해보려고 합니다. 도커라는 것이 정말 강력해서 이렇게 환경 설정 해놓으면 docker hub에 올려 언제든지 재사용할 수 있다는 것이 매우 좋은데요하둡을 이렇게 설치해놓으면 매우 간편합니다. 시작해봅니다. 저는 윈도우 환경에서 도커를 설치해서 진행했습니다.뭐 어느 환경이던 상관없습니다 먼저 centos 7버전을 pull합니다.docker pull centos:7을 이용하면 됩니다. ..
얼마전 도커(docker) 환경 centos7에서 mysql을 새로 깔다가 예전과 다른 설치 방법? 에러? 등이 있어서 글 남겨본다 yum -y install http://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm yum -y install mysql-community-server 먼저 당연히 위와 같은 방법으로 mysql을 설치한다. 문제는 여기서부터였다! systemctl start mysqld로 mysql을 시작한다. 그러면 서비스가 시작될 것이다. 처음 mysql을 실행하면 당연히 root로 로그인해서 비밀번호를 바꿔주어야 한다.그래서 /var/log/mysqld.log로 들어가서 root 비밀번호를 확인한다맨 처음 시작할 때 임..
파이썬을 사용하다 보면 별별 오류를 다 겪는다.특히 본인은 csv, txt 파일을 자주 읽은 파일 입출력에서 많은 오류를 겪었는데 이번 오류도 그렇다 단순히 그냥 파일을 입력으로 읽어왔는데 막 안에 \ufeff이런게 섞여있는 것이 아닌가..이것 때문에 데이터 처리도 안되고 정말 애먹었었다.인코딩 에러인지 뭔지도 모르겠다 이렇게 파일을 읽어오면 해결되더라with open에서 encoding='utf-8-sig'로 하면 이렇게 깔끔하게 해결이 된다.
안녕하세요! 요즘 날씨가 갑자기 추워졌네요. 건강 조심하세요 지난 주에 카카오 형태소 분석기(khaiii)설치 및 은전한닢(mecab)과 비교를 했었습니다.https://lsjsj92.tistory.com/408궁금하신 분들은 해당 글 보시면 되겠습니다. 이 글을 올리고 나서 몇몇 분들이 이런 말씀을 해주셨습니다.'실제 데이터셋 성능 비교'와 '실행 시간 비교'를 해달라고 요청이 조금 있었습니다.(아무래도 NLP, 자연어 처리에서는 성능이 중요하니까요)그래서 이번 포스팅은 실제 데이터셋 성능 비교를 할 것입니다.LSTM 모델을 기반으로 문서 카테고리 분류를 해볼 것입니다. 또한, 형태소 분석기를 돌리면서 성능 시간도 측정해봅니다.(시간상 mecab과 비교뿐이 못했습니다.) 데이터셋은 몇개 못했습니다. 저..
파이썬으로 케라스(keras)글을 오랜만에 올립니다.그 동안 공부도 많이 못했고(일을 핑계 삼아..) 여태 공부했던 것들 정리하고 좀 다지는 시간을 가졌습니다. 그리고 개인적으로 관심이 있는 자연어처리(NLP)쪽 프로젝트를 딥러닝 기반으로 개인 프로젝트 식으로 진행했습니다. 주제는 뉴스 카테고리 분류 및 핵심 키워드 추출과 연관 단어 분석입니다.일종의 news category classification 입니다. 여기에 word2vec와 tf-idf를 섞은 것이죠.뭔가 말이 거창하네요. 쓰여진 알고리즘은 다음과 같습니다LSTM(Long Short Term Memory) RNN의 종류Word2vec 단어를 벡터화Tf-idf 문서의 핵심 키워드 추출Logistic regression 사이킷런(scikit-le..