목록딥러닝 (93)
꿈 많은 사람의 이야기
안녕하세요! 이 글을 쓰는 현재 설 연휴가 시작되었네요모두들 새해 복 많이 받으세요!올 한해 건강하시고 하는 일 다 잘 되시길 바랍니다! 어느덧 새벽 5시 캐글 필사 5주차입니다.벌써 5주차네요이제 3번째 주제로 넘어갔습니다.처음은 타이타닉, 두 번째는 porto 데이터였습니다.이제는 home credit 대회를 기준으로 진행해보려고 합니다.근데 여기까지 하면서 느낀점이 있다면 캐글 필사를 하면서 진짜 하나를 제대로 해야겠다는 느낌이 드네요계속 주제는 넘어가지만 porto 데이터와 타이타닉 데이터는 계속 중간중간 복습을 하고 있습니다.안그러면 계속 까먹네요 ㅠ 아무튼 시작하겠습니다. 이 데이터 셋의 배경은 위 설명과 같습니다.신용기록이 없는 사람들에게도 대출이 가능하도록 이 사람이 상환 능력이 되는가? ..
https://lsjsj92.tistory.com/429지난 3주차 포스팅 글입니다. 3주차에 이은 4주차입니다. (말이 n주차지.. 글이 밀려서 한 번에 올리네욯ㅎㅎㅎㅎ). 4주차에서도 저는 porto 데이터 셋을 가지고 다른 커널을 필사했습니다. 솔직히 타이타닉 다음으로 porto를 하는데 있어 너무 어려웠습니다. 그래서 이 데이터는 몇 번 더 해봐야겠네요 ㅠ 지난 커널에서는 모르는 내용이 너무 많았습니다. 왜 데이터를 그렇게 복잡하게 조합하고 그러는지 이해도 안되고요. 하지만 이 커널은 정말 명확하더라구요! 시작하겠습니다. 맨 위에 커널 주소가 나와있습니다. 저 주소로 진행했습니다.먼저 필요한 라이브러리를 import 합니다. Numpy, pandas는 기본이고, sklearn에서 model_sel..
안녕하세요.새벽 5시 캐글 필사하기 3주차입니다.사실 캐글 필사는 계속 하고 있는데 블로그에 올리기가 너무 힘드네요요즘 바빠서 퇴근 시간이 늦다 보니(집오면 10시 ㅠ) 블로그에 올릴 시간이 없네요 ㅠ 3주차 주제는 porto 데이터 셋으로 진행합니다. 안전하게 운전을 하는 운전자를 예측하는 데이터입니다.데이터는 https://www.kaggle.com/c/porto-seguro-safe-driver-prediction 에 있습니다. 이번 주제도 1, 2주차에 걸쳐서 진행합니다. 1주차는 먼저 머신러닝 탐구생활이라는 책의 EDA 과정을 볼 것이고, 좀 이해하기 힘든 커널을 1개 필사했습니다.(아직도 이해가 안갑니다…) 시작해봅니다! 머신러닝 탐구생활 책을 기준으로 진행합니다. 역시 데이터부터 살펴보기 위..
최근 캐글을 자주하고 있습니다.(새벽 5시 시리즈를 올려야하는데.. 블로그 글 쓸 시간이 만만치 않아서 못올리고 있습니다 ㅠ)근데 캐글을 하면서 알 수 없는 에러를 자주 겪었습니다.그것에 대해서 몇 개 정리해보려고 합니다. 먼저 아래와 같은 사진 이슈입니다. timeout waiting for IOPub output 이라는 warning이 나옵니다.음 그렇게 치명적인 오류는 아닌 것 같은데요. 저는 이게 나오면서 커널이 멈추는 현상이 나왔습니다(kernel stopping)알고보니 이게 모델을 훈련 하는 등의 과정에서 output이 나오는데요.예를 들어 verbose값이 1이거나 이런 상황에서요. 이런 출력이 좀 무리?가 되는 것이 있나봅니다.verbose = 0으로 하면 별 문제없이 해결됩니다. 그리고..
어느덧 새벽 5시 캐글(kaggle) 2주차이다!지난 게시글에서 타이타닉(titanic) 캐글 커널을 필사했었다하지만 결과는 그리 좋지 못했었는데 오늘은 그것을 보완하는 작업을 한다 이번 필사 작업의 참조 커널은 https://www.kaggle.com/yassineghouzam/titanic-top-4-with-ensemble-modeling/notebook 에서 참고하였다! 이것을 필사? 참고 후 현재 나의 캐글 상태이다.캐글 코리아에서 주최한 2019 1st ML month with KaKR 대회 성적은 별로지만밑에 titanic : machine learning 부분의 대회는 상위 6% 성적을 보였다. 이 글은 주로 seaborn의 factorplot을 자주 이용했다.factorplot을 사용하면..
새해 첫 목표를 두고 있는 새벽 5시 캐글 필사 편 1주차 내용이다. 사실 원래 다른 데이터로 진행하려고 했는데 어쩌다 보니 타이타닉으로 넘어왔다. 머신러닝 탐구생활이라는 책으로 시작하려고 했지만 쉽지 않았기 때문이다. 또한, 데이터 분석을 한동안 안했더니 감을 잃은 것도 컸다. 그리고 마침 페이스북 그룹인 캐글 코리아(kaggle korea)에서 대회를 타이타닉을 주제로 하고 있기에 타이타닉으로 진행했다. 이 과정에서 1주일이 날라갔다 ㅠ 그래서 타이타닉 편으로 시작! 이 필사는 다양한 커널을 참조했다. 타이타닉 커널을 보면 open되어 있는 커널 중 인기 많은 커널 2개와 약간의 내 아이디어? 를 짬뽕시켜서 진행했다. 많이 참조한 대표적인 커널은 https://www.kaggle.com/ash316/..
벌써 12월 31일이다.뭐 했는데 이렇게 시간이 빠르게 흘렀을까? 2018년도를 복기를 해보니까17년도에 인턴이 끝나서 18년 1월부터 백수였다.1월에는 뭐 취업 공고도 나지 않고.. 그렇기에 공부만 했던 시기그게 2~3월까지 가다가 3월부터 자소서를 쓰기 시작 대기업도 뚫고, 심지어 시험도 통과된 회사도 있었지만 지금 다니고 있는 중소기업에 취직여기를 선택한 이유는 '내가 할 수 있는 것을 배울 수 있는 곳'개인적으로 웹 개발은 하기가 싫었다. 데이터 분석과 핸들링을 할 수 있는 곳을 원했다근데 그런 곳은 대부분 3~5년 이상 개발자를 원했다. 즉, 신입을 뽑지 않았다. 당연하다. 그 만큼 어려우니까근데 이 회사는 거의 몇 안되게 신입을 뽑았다. 사실 3군데가 있었지만 여기를 선택했다. 여러 사람들이 ..
연말이 다가 오면서 목표했던 것들이 서서히 다 끝나간다.특히 최근에는 회사 일 때문에 딥러닝 공부를 아예 못하고 있는데개인적으로는 너무너무 딥러닝이 하고싶었다. 그래서 최근에 나혼 케라스 창시자에게 배우는 딥러닝 이라는 책을 샀다.프랑소와 숄레가 지었고 박해선님이 옮겨주셨다. 개인적으로 공부할 시간이 없었다. 맨날 야근해서 공부하고, 주말엔 모두의 연구소 스터디도 가고 그거 정리하고 하면 그냥 한 주가 끝났다.근데 너무 딥러닝이 하고 싶었다. 이미 뒤쳐지고 있는데 더 뒤쳐지기가 무서웠기 때문이다. 그래서 결심한 것이 새벽 5시 기상 후 공부!이다. 나는 이 책을 새벽 5시에 일어나서 출근 준비 전까지 1시간 30분 정도 공부했다.이걸 2주동안 반복하니까 책을 한 번 다 읽게 되었다.(물론 코드는 못쳐보고..
안녕하세요! 오늘은 크리스마스네요벌써 연말이군요.. 오늘 하루 행복하시구요연말 마무리 잘하시고 새로운 한 해를 맞이할 준비 잘 하셨으면 좋겠습니다! 이번 장에서는 이미지와 관련된 새로운 것을 배우게 됩니다.제가 여태 올렸던 강의 정리 및 cs231n에서 소개했던 방법은 다 이미지 분류(image classification)이었습니다. 하지만 이건 가~~~장 기본적인 것입니다. 여기서 좀 더 해야할 것이 있죠. 바로 이미지 localization, segmentation, object detection 등입니다. 이번 장에선 이런 것들을 배웁니다. 우리는 앞에서 image가 들어오면 어떤 deep neural network를 통과해서 그 결과로 feature vector가 나오게 되고 최종 결과로 imag..
꽤나 오래전에 겪었던 에러인데..이제서야 올려본다 파이썬 라이브러리중 판다스(pandas)를 사용하다보면 가끔 이런 에러를 겪는다. Error Tokenizing data. C error : EOF inside string starting at line ~~ 이라는 에러이다. 본인은 이걸 pandas read_csv 등을 할 때 겪었었는데 아무리해도 해결방법을 찾지 못했었다. 그러다가 찾은 해결 방법.. 그냥 새롭게 파일을 만든다. 외부에서 만드는게 아니라 파이썬 내부 코드로 csv 파일을 읽고 그대로 다시 dataframe을 짜서 그걸 다시 csv로 똑같이 저장한다.그러면 이상하게 잘 된다. 혹시 모르니까 파일을 읽을 때 공백 제거해주는 strip을 쓰면 좋다.