목록딥러닝 (93)
꿈 많은 사람의 이야기
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dP9yWW/btqAyHeFK1E/xjOYQKaZEDBRbmTBHycFsk/img.jpg)
포스팅 개요 머신러닝과 딥러닝에서 자주 사용하는 알고리즘이 있습니다. 특히, 머신러닝쪽에서 많이 사용하는데 그것은 앙상블(ensemble)이라는 방법입니다. 앙상블(ensemble)은 크게 보팅(voting), 배깅(bagging), 부스팅(boosting)으로 나뉘어지는데 추가로 스태킹(stacking)이라는 방법도 있습니다. 스태킹 앙상블(stacking ensemble)은 캐글(kaggle)에서 점수를 조금이라도 더 높이고자 할 때 사용하는 앙상블 방법입니다. 이번 포스팅은 이러한 머신러닝 스태킹 앙상블(stacking ensemble)에 대해서 기본적인 구조를 알아보는 포스팅입니다. 참고 출처는 아래와 같습니다. https://www.kaggle.com/getting-started/18153 ht..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ekWF7x/btqAskYHrGv/dkhr6mzctikDjTfxT5jNy1/img.jpg)
포스팅 개요 이번 포스팅은 머신러닝과 딥러닝에서 많이 사용하는 데이터 이상치 탐지(outlier detection)에 대해서 작성합니다. 또한, 지난 포스팅인 캐글의 신용카드 사기 탐지 대회 데이터셋(kaggle credit card fraud detection data)을 이용하며 신용카드 사기 탐지 3편입니다. 참조한 자료는 kaggle의 커널(https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 입니다. 그 외의 참조 자료는 구글링 자료입니다. 코드는 아래 github에 존재합니다. https://github.com/lsjsj92/machine_learning_basic lsjsj92/machine_le..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cWLRgF/btqz74gIf5T/dXlfm6uLYMJj43pXRqBM21/img.jpg)
이번 포스팅은 머신러닝으로 신용카드 사기를 탐지하는 모델을 만들어보려고 합니다. 해당 포스팅의 데이터는 kaggle에서 제공해준 kaggle credit card fraud를 사용했습니다. 또한, 한 커널을 필사하면서 진행하며 참고했는데요. 커널은 아래와 같습니다. (https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 머신러닝의 기본적인 내용을 공부하면서 이것을 어떻게 적용할 수 있을까?를 정말 많이 고민하게 됩니다. 단순히 캐글에서 제공해주는 타이타닉으로 해본다? 좀 뭔가 현설직이지는 않습니다. 개인적으로는 이 신용카드 사기 탐지가 머신러닝 기본기를 다지기도 좋고 재밌기도 하더군요! 그래서 머신러닝으로 신..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bfSLll/btqzOXaTi9e/a41RnULDIIof9uXLp5yAYK/img.jpg)
최근 머신러닝 기초반 스터디를 진행하면서 느끼는 점이 있습니다. 또한, 이메일로 질문 받는 것중 적지 않는 질문이기도 합니다. 그 질문은 아래와 같습니다. 왜 머신러닝(machine learning), 딥러닝(deep learning)에서는 데이터를 나누나요? 도대체 X, y는 뭐고 feature는 뭐죠? X_train, X_test, y_train, y_test는 뭐죠? 정말 원초적인 질문이지만, 당연히 궁금해 할 질문입니다. data science가 이제 인기를 끌면서 많은 분들이 Python을 배우시고 Python을 활용한 데이터 분석과 머신러닝, 딥러닝을 하고 있습니다. 하지만, 너무 급하게 너무 빠르게 배우느라 기본적인 것들을 놓치는 것 같습니다. 그래서 이러한 질문이 계속 오기 때문에 머신러닝..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/4zL8T/btqx3UgvMor/YKUqEw20DuCSUTXaIFoyr1/img.jpg)
이번 포스팅은 기술적 포스팅이 아니라 컨퍼런스에 갔다온 후기를 작성합니다. 본인은 현재 에듀테크(edutech)에 종사하고 있습니다. 교육에 IT 기술을 접목시킨 분야인데요. 해당 분야에서 data science 팀에서 활동하고 있습니다. 그러다보니 자연스럽게 edutech에 대해서 관심을 많이 가지고 있고 조사를 계속 하고 있습니다. 그리고 마침 이번에 삼성역에 있는 코엑스에서 e-learning korea 2019 edutech fair가 열리는 것을 알게 되었습니다. edutech에 대한 기술동향과 어떤 이슈가 있는지 알아보기 위해서 해당 컨퍼런스에 참석해서 갔다왔습니다. 후기 시작합니다! 코엑스 C2몰에서 진행되고 있었습니다. 간판으로 크게 e-learning korea 2019 edutech f..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b9NlNz/btqwVhEHxY5/njHdVvaafFObVp0dLKYAlK/img.jpg)
지난 포스팅에 seq2seq 모델을 적용시켜서 기계 번역에 대해서 알아보았습니다. 인공지능 기반 자연어 처리 번역 즉, 기계 번역(NMT)은 규칙 기반부터 확률, 통계 기반으로 시작하여 현재 딥러닝을 활용해 기계 번역을 하는 역사를 가지고 있다는 것도 배웠죠 또한, 그 중심에 seq2seq 모델이 있다는 것도 배웠습니다. 하지만 seq2seq는 한계가 있습니다. 그 한계는 바로 번역이 잘 되지 않는다는 것이죠 그래서 어텐션 메커니즘이 나오게 됩니다. Attention Mechanism은 무언가에 집중한다는 개념입니다. 이 어텐션 메커니즘의 효과는 정말 어마어마합니다. 현재 자연어처리 분야에 있어서 어텐션 메커니즘을 안쓰는 곳이 없기 때문이죠. 또한 인공지능, 딥러닝 분야에서도 핫한 기술이기도 합니다. 이..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cKW2ms/btqwR36bycA/fkCsQE3P8PTyrNbjqed08K/img.jpg)
요즘 Keras를 사용하다가 PyTorch를 공부하고 있습니다. PyTorch는 또 다른 딥러닝 라이브러리이죠 윈도우에서 지원이 미약하다가 이제는 좀 잘 되는 것 같은데요 ㅎㅎ PyTorch가 version이 up 되면서 1.1.0 버전이 나왔습니다. 이번 포스팅은 PyTorch를 윈도우 10에서 (windows 10) 설치하는 방법에 대해서 알아봅니다. 그리고 GPU도 실행시키구요 저는 CUDA 버전이 9.0인데요 먼저 윈도우에서 cuda 버전을 확인하는 방법부터 보죠! cuda version check in windows 바로 cmd를 켜서 nvcc --version을 하시면 cuda version을 볼 수 있습니다. 저는 release 9.0이라고 나와있네요! 이렇게 cuda 버전을 확인했으면 이제..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cOcSh8/btqwPBQJP98/h5e3Wnt8aLtbWQJfQ0rkaK/img.jpg)
딥러닝이 핫한 지금 영상처리 분야뿐 아니라 자연어 처리 분야도 엄청 핫합니다. 특히 일반적인 문서 분류(text classification)를 넘어서 이제 번역기나 문장 생성, 텍스트 생성에도 포커스가 맞춰지고 있죠 이번 포스팅은 seq2seq에 대해서 자세히 알아보려고 합니다. 제 블로그에 seq2seq 내용을 다루긴 했지만 이론적인 내용이 부실했었습니다. 그래서 최근 제가 모두의 연구소에서 자연어처리 기초반(NLP)을 운영하면서 진행했던 발표 자료를 가지고 다시 정리해보려고 합니다. 기계 번역의 역사부터 현재까지 어떻게 진행되는지 전반적인 내용을 보려고 합니다. 그리고 이 자료는 허훈님의 자료를 조금 참고해서 만들었었습니다. 그럼 시작하죠! 먼저 기계 번역의 역사입니다. 기계 번역의 역사는 사실 좀 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/RMaGa/btqvwmzY6mc/mGgz12R7LPbtxvhApGce01/img.png)
얼마전 제 블로그에 keras를 활용해서 자연어처리(NLP) 개인 프로젝트 진행한 것을 올렸습니다. https://lsjsj92.tistory.com/476 파이썬 딥러닝 기반 욕설 탐지 시스템 개발(개인 프로젝트)해보기! 이번 포스팅은 파이썬 케라스와 장고(python keras, python django)를 활용한 딥러닝 기반 욕설 탐지 시스템을 개인적으로 만들어본 후기입니다. 데이터 특성 상 욕설이 포함되어 있을 수 있습니다! 만약 읽게 되.. lsjsj92.tistory.com 해당 글입니다. 아직까지 초안 단계일 뿐이고 부족함이 많은 개발 단계입니다. 더 많은 데이터를 쌓아야하며, 여러가지 연구해야할 것들이 많습니다 지금은 비록 딥러닝으로 욕설을 탐지하지만 나아가 더 많은 것들을 탐지할 수 있는..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cI68Q9/btqvjMrizU1/0sDxgT0VO1IXL8FJN7KG7k/img.png)
이번 포스팅은 파이썬 케라스와 장고(python keras, python django)를 활용한 딥러닝 기반 욕설 탐지 시스템을 개인적으로 만들어본 후기입니다. 데이터 특성 상 욕설이 포함되어 있을 수 있습니다! 만약 읽게 되신다면 감안 부탁드립니다 ㅠㅠ 프로젝트를 어쩌다가 하게 되었나? 어느 날 한 프로게이머가 은퇴했습니다. 제가 정말 좋아하는 프로게이머였고 리그오브레전드(롤) 선수였습니다. 유튜브도 유명한 프로게이머입니다. 프레이, 프짱이라고 불리우는 선수였죠 사실 은퇴 전에 이번 시즌을 쉰다고 했을 때도 복귀할 것이라 생각했습니다. 하지만 자신감을 잃었다고 하고 은퇴를 선언했죠. 쉬는 기간에 챌린저도 가볍게 찍었던 그 였습니다. 왜 그런 그가 자신감이 없다고 했을까? 어느 댓글을 보니 이런 글이 있..