목록deep learning (39)
꿈 많은 사람의 이야기
이번 커널 필사편은 7주차 이후로 또 다시 자연어 처리 편입니다이 커널은 toxic 이라는 데이터로 알려져 있는데요. 캐글에서 자연어 처리(nlp) 데이터 셋으로 많이 유명합니다.일종의 분류 문제입니다. 하지만 label이 1개가 아닌 6개를 가진 특이한 데이터 구조입니다 처음 캐글을 시작할 때 타이타닉 다음으로 이 데이터 셋으로 했었는데..당시에는 아무것도 모를 때라 그냥 너무 어렵다.. 하고 포기했었는데요처음 봤을 때보다 지금이 7개월 정도 흘렀는데 이젠 좀 눈에 보이네요 ㅎㅎ 필사를 하면서 이해가 되더군요제가 그 만큼 공부를 했다는 거겠죠 ㅎㅎ 바로 진행합니다 역시 처음에 필요한 라이브러리를 가져와줍니다keras, matplotlib, seaborn, pandas, numpy 등을 가져와줍니다lay..
최근에 텐서플로우로 배우는 자연어 처리 책을 보고 있습니다 평소에는 케라스(keras)만 위주로 써서 이 책의 내용의 코드와 잘 맞지 않는 부분이 있는데요이 책도 텐서플로우 안에 있는 keras 모듈을 사용하기는 합니다.tf.keras.layer 등을 사용하고 때에 따라서 tf.nn.rnn 등을 사용하기도 합니다. 하지만 완전 순수 keras 라이브러리와는 좀 사용법이 다르네요그 중 하나가 저는 model summary 부분이 정말 궁금했습니다. 케라스에서는 그냥 model.summary()를 하면 모델 요약이 나왔었는데요!tf.keras를 사용하다보니까 사용 방법이 좀 달랐습니다 model을 요약(summary)해서 shape 등의 정보를 볼 수 있는 방법을 소개합니다(tensorflow model s..
파이썬으로 딥러닝을 해봅시다!이번 포스팅은 파이썬(python)의 케라스(keras) 딥러닝 라이브러리를 이용해서자연어 처리(NLP)를 해봅니다. 데이터는 네이버 영화 평점 데이터를 활용합니다.사실 이 딥러닝을 한지는 꽤 되었습니다.모두의 연구소에서 진행한 모두콘(moducon)때에 자연어 처리 대회가 있었는데요그때 참여했던 소스입니다. 당시는 3등을 했습니다(정확도가 별로 높지는 않지만..)1, 2등 분들의 코드나, 아이디어를 얻고 싶어서 모두연에 요청도 했는데 ㅠ끝내는 받지 못했네요 ㅠㅠ아무튼 저는 아래와 같은 방식으로 자연어 처리 딥러닝을 진행했습니다. 먼저 형태소 분석기가 인식하지 못할 단어를 모아서 구축했습니다.자연어 처리에서 형태소 분석기는 자주 사용하는데요저는 은전한닢(mecab)을 자주 사..
이번 캐글 필사 편은 지난 필사 편(https://lsjsj92.tistory.com/435)에 이은 home credit의 두 번째 필사입니다. 이번에는 다른 커널을 진행해봅니다.지난 커널에서는 EDA를 위주로 봤는데요이번에는 실제 모델을 만들고 제출을 해봅니다.그리고 application_train.csv의 기본 파일 외에 bureau라는 data를 가지고 고객이 이 회사에서 대출하기 전에 다른 금융 기관에서 대출했던 내역을 참고해서 모델을 만들어 봅니다. 필사한 커널은 사진 위에 나와있습니다.마찬가지로 기본적인 numpy, pandas, matplotlib, seaborn을 import합니다.그리고 application_train, test.csv를 가져오지 않고 bureau.csv를 가져옵니다.이..
안녕하세요! 이 글을 쓰는 현재 설 연휴가 시작되었네요모두들 새해 복 많이 받으세요!올 한해 건강하시고 하는 일 다 잘 되시길 바랍니다! 어느덧 새벽 5시 캐글 필사 5주차입니다.벌써 5주차네요이제 3번째 주제로 넘어갔습니다.처음은 타이타닉, 두 번째는 porto 데이터였습니다.이제는 home credit 대회를 기준으로 진행해보려고 합니다.근데 여기까지 하면서 느낀점이 있다면 캐글 필사를 하면서 진짜 하나를 제대로 해야겠다는 느낌이 드네요계속 주제는 넘어가지만 porto 데이터와 타이타닉 데이터는 계속 중간중간 복습을 하고 있습니다.안그러면 계속 까먹네요 ㅠ 아무튼 시작하겠습니다. 이 데이터 셋의 배경은 위 설명과 같습니다.신용기록이 없는 사람들에게도 대출이 가능하도록 이 사람이 상환 능력이 되는가? ..
https://lsjsj92.tistory.com/429지난 3주차 포스팅 글입니다. 3주차에 이은 4주차입니다. (말이 n주차지.. 글이 밀려서 한 번에 올리네욯ㅎㅎㅎㅎ). 4주차에서도 저는 porto 데이터 셋을 가지고 다른 커널을 필사했습니다. 솔직히 타이타닉 다음으로 porto를 하는데 있어 너무 어려웠습니다. 그래서 이 데이터는 몇 번 더 해봐야겠네요 ㅠ 지난 커널에서는 모르는 내용이 너무 많았습니다. 왜 데이터를 그렇게 복잡하게 조합하고 그러는지 이해도 안되고요. 하지만 이 커널은 정말 명확하더라구요! 시작하겠습니다. 맨 위에 커널 주소가 나와있습니다. 저 주소로 진행했습니다.먼저 필요한 라이브러리를 import 합니다. Numpy, pandas는 기본이고, sklearn에서 model_sel..
안녕하세요.새벽 5시 캐글 필사하기 3주차입니다.사실 캐글 필사는 계속 하고 있는데 블로그에 올리기가 너무 힘드네요요즘 바빠서 퇴근 시간이 늦다 보니(집오면 10시 ㅠ) 블로그에 올릴 시간이 없네요 ㅠ 3주차 주제는 porto 데이터 셋으로 진행합니다. 안전하게 운전을 하는 운전자를 예측하는 데이터입니다.데이터는 https://www.kaggle.com/c/porto-seguro-safe-driver-prediction 에 있습니다. 이번 주제도 1, 2주차에 걸쳐서 진행합니다. 1주차는 먼저 머신러닝 탐구생활이라는 책의 EDA 과정을 볼 것이고, 좀 이해하기 힘든 커널을 1개 필사했습니다.(아직도 이해가 안갑니다…) 시작해봅니다! 머신러닝 탐구생활 책을 기준으로 진행합니다. 역시 데이터부터 살펴보기 위..
연말이 다가 오면서 목표했던 것들이 서서히 다 끝나간다.특히 최근에는 회사 일 때문에 딥러닝 공부를 아예 못하고 있는데개인적으로는 너무너무 딥러닝이 하고싶었다. 그래서 최근에 나혼 케라스 창시자에게 배우는 딥러닝 이라는 책을 샀다.프랑소와 숄레가 지었고 박해선님이 옮겨주셨다. 개인적으로 공부할 시간이 없었다. 맨날 야근해서 공부하고, 주말엔 모두의 연구소 스터디도 가고 그거 정리하고 하면 그냥 한 주가 끝났다.근데 너무 딥러닝이 하고 싶었다. 이미 뒤쳐지고 있는데 더 뒤쳐지기가 무서웠기 때문이다. 그래서 결심한 것이 새벽 5시 기상 후 공부!이다. 나는 이 책을 새벽 5시에 일어나서 출근 준비 전까지 1시간 30분 정도 공부했다.이걸 2주동안 반복하니까 책을 한 번 다 읽게 되었다.(물론 코드는 못쳐보고..
안녕하세요! 오늘은 크리스마스네요벌써 연말이군요.. 오늘 하루 행복하시구요연말 마무리 잘하시고 새로운 한 해를 맞이할 준비 잘 하셨으면 좋겠습니다! 이번 장에서는 이미지와 관련된 새로운 것을 배우게 됩니다.제가 여태 올렸던 강의 정리 및 cs231n에서 소개했던 방법은 다 이미지 분류(image classification)이었습니다. 하지만 이건 가~~~장 기본적인 것입니다. 여기서 좀 더 해야할 것이 있죠. 바로 이미지 localization, segmentation, object detection 등입니다. 이번 장에선 이런 것들을 배웁니다. 우리는 앞에서 image가 들어오면 어떤 deep neural network를 통과해서 그 결과로 feature vector가 나오게 되고 최종 결과로 imag..
안녕하세요. 으.. 날씨가 많이 춥네요. 건강 조심하세요. 이것도 정리가 조금 늦었네요카카오 형태소 분석기 설치랑, 예전에 했던 LSTM 프로젝트 등을 정리하느라고 조금 늦어졌습니다.이번 포스팅은 딥러닝 영상처리 강의 스탠포드 대학교 cs231n 2017강의 10번째 강의 RNN입니다.RNN(Recurrent Nerual Networks)는 CNN과 함께 정말 많이 사용하는 네트워크입니다. 시계열 데이터(timestamp) 등에서 많이 사용되고 그 예로는 문자열 데이터, 주식(코인) 데이터, 비디오 데이터 등 정말 다양한 데이터가 RNN과 함께 사용될 수 있습니다. 아 그리고 이번 강의는 좀 정리가 힘드네요. 이 강사가 말이 너무 빠르고 그냥 훅훅 지나가서..에흌ㅋㅋㅋㅋㅋ 힘듭니다. 아무튼 시작해볼까요 ..