목록분류 전체보기 (578)
꿈 많은 사람의 이야기
포스팅 개요 이번 포스팅은 추천 시스템(recommendation system) 기본 2탄입니다. 지난 포스팅에서 추천 시스템이 왜 중요한지, 어떤 종류가 있는지 간략하게 살펴보았습니다. (https://lsjsj92.tistory.com/563) 추천 시스템(Recommendation system)이란? - content based filtering, collaborative filtering 포스팅 개요 이번 포스팅은 추천 시스템(recommedation system)에 대해서 알아봅니다. 또한, 추천 시스템에는 컨텐츠 기반 필터링(content based filtering)과 협력 필터링(collaborative filtering)이 있는데요... lsjsj92.tistory.com 추천 시스템의 ..
포스팅 개요 이번 포스팅은 추천 시스템(recommedation system)에 대해서 알아봅니다. 또한, 추천 시스템에는 컨텐츠 기반 필터링(content based filtering)과 협력 필터링(collaborative filtering)이 있는데요. 위와 같은 추천 시스템과 그 적용 방법에 대해서 포스팅을 하겠습니다. 추천 시스템(recommendation system)포스팅은 몇 번을 거친 시리즈 형태로 포스팅이 주기적으로 올라갈 예정입니다. 참고한 자료 https://www.kaggle.com/rounakbanik/movie-recommender-systems https://www.kaggle.com/ibtesama/getting-started-with-a-movie-recommendatio..
포스팅 개요 2019년을 되돌아보며 회고하는 글이다. 현재 데이터 사이언티스트(data scientist) 직무에 속한 상태로 2019년을 마무리 하기 때문에 포스팅 제목을 data scientist로 마무리하는 2019년 회고로 정했다. data scientist로써 이수진의 2019년은 짧게 요약하면 아래와 같다. - 개인적으로 너무 힘들었던 해 - 힘들었던 것을 이겨낸 후 시야가 넓어진 해 - 중요한 것과 중요하지 않은 것이 무엇인지 조금은 알 수 있었던 해 - 감사하다는 말을 정말 많이 들어본 해 - 2020년에 이루고자 하는 목표가 있고 꼭 이루고 싶다. - 지금은 데이터 사이언스 분야에 안 맞는 실력이다. 부끄럽지 않은 실력을 갖추겠다. 본문 시간 정말 빠르다. 2018년 회고록 쓴 것이 엊그..
포스팅 개요 집에서는 윈도우를 활용해서 사용하지만 회사에서는 mac을 사용합니다. 그러다보니 windows 환경에서 python 설치하는 여러 이슈와 mac에서 나오는 여러 이슈가 좀 다른데요. 이번 포스팅은 mac os 환경에서 python konlpy를 설치하는 방법과 에러가 나올 때 대처할 수 있는 방법에 대해 소개합니다. 본문 mac 환경에서 개발 환경을 구축하는 것은 매우매우 쉽습니다. 개발자분들이 윈도우를 자주 사용안하시는 이유가 있으니까요 ㅎㅎ (저도 GPU만 아니었으면..) 때문에 mac에서 python 환경을 다루는 것도 쉽습니다. mac os에서 konlpy를 설치하려면 단순히 아래 명령어만 입력하면 됩니다. pip install konlpy 하지만 이게 mac에서 오류가 발생할 수 있..
포스팅 개요 머신러닝(machine learning)과 딥러닝(deep learning)에서 사용되는 앙상블 중 스태킹 앙상블(stacking ensemble) 2번째 포스팅입니다. 지난 포스팅에서는 스태킹 앙상블의 기본적인 방법과 배경 지식을 소개했습니다. https://lsjsj92.tistory.com/558 머신러닝 스태킹 앙상블(stacking ensemble) 이란? - 스태킹 앙상블 기본편(stacking ensemble basic) 포스팅 개요 머신러닝과 딥러닝에서 자주 사용하는 알고리즘이 있습니다. 특히, 머신러닝쪽에서 많이 사용하는데 그것은 앙상블(ensemble)이라는 방법입니다. 앙상블(ensemble)은 크게 보팅(voting), 배깅(bagging.. lsjsj92.tistory..
포스팅 개요 머신러닝과 딥러닝에서 자주 사용하는 알고리즘이 있습니다. 특히, 머신러닝쪽에서 많이 사용하는데 그것은 앙상블(ensemble)이라는 방법입니다. 앙상블(ensemble)은 크게 보팅(voting), 배깅(bagging), 부스팅(boosting)으로 나뉘어지는데 추가로 스태킹(stacking)이라는 방법도 있습니다. 스태킹 앙상블(stacking ensemble)은 캐글(kaggle)에서 점수를 조금이라도 더 높이고자 할 때 사용하는 앙상블 방법입니다. 이번 포스팅은 이러한 머신러닝 스태킹 앙상블(stacking ensemble)에 대해서 기본적인 구조를 알아보는 포스팅입니다. 참고 출처는 아래와 같습니다. https://www.kaggle.com/getting-started/18153 ht..
포스팅 개요 이번 포스팅은 머신러닝과 딥러닝에서 많이 사용하는 데이터 이상치 탐지(outlier detection)에 대해서 작성합니다. 또한, 지난 포스팅인 캐글의 신용카드 사기 탐지 대회 데이터셋(kaggle credit card fraud detection data)을 이용하며 신용카드 사기 탐지 3편입니다. 참조한 자료는 kaggle의 커널(https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 입니다. 그 외의 참조 자료는 구글링 자료입니다. 코드는 아래 github에 존재합니다. https://github.com/lsjsj92/machine_learning_basic lsjsj92/machine_le..
포스팅 주제 더보기 이번 포스팅은 지난 포스팅에 이어서 캐글의 신용카드 사기 탐지(kaggle credit card fraud detection) 데이터를 활용합니다. 또한, kaggle credit card fraud detection의 커널 중 https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets 커널을 참조하여 공부하고 정리하였습니다. 이번 글은 지난 글에서 진행한 신용카드 사기 탐지 데이터의 데이터 스케일(data scale)을 변경시켜보려고 합니다. 그리고 이렇게 데이터 스케일이 변경되었을 때 머신러닝 모델 성능이 어떻게 변화되는지 살펴보겠습니다. 지난 포스팅에서는 데이터 원본을 그대로 사용하여 단순히..
이번 글은 본인의 첫 강의 경험을 기반으로 작성되는 글이다. 어떻게 이러한 강의 기회가 오게 되었고 왜 내가 강의를 해보기로 결심했는지 그리고 그 후기는 어떤지 작성해보고자 한다. 부디 어떤 사람들에게는 도움이 되기를 바라면서. 그리고 무엇보다 미래에 또 다른 기회가 왔을 때 이 글을 기반으로 본인 자신을 돌아보기 바라면서 작성한다. 글이 꽤나 길다. 짧게 요약하면 아래와 같다. - 이번 강의는 5일동안 하루 7시간 강의하는 Data Engineering 강의었다. Apache Hadoop, Spark, Hive, NiFi 등의 내용을 다룬 강의다. - 강의 기회가 오면 해보는 것을 추천한다. 정말 다양한 경험을 할 수 있다. - 하지만, 무조건 하라고는 못하겠다. 상황을 보고 판단해야 한다. - 강의에..
이번 포스팅은 머신러닝으로 신용카드 사기를 탐지하는 모델을 만들어보려고 합니다. 해당 포스팅의 데이터는 kaggle에서 제공해준 kaggle credit card fraud를 사용했습니다. 또한, 한 커널을 필사하면서 진행하며 참고했는데요. 커널은 아래와 같습니다. (https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 머신러닝의 기본적인 내용을 공부하면서 이것을 어떻게 적용할 수 있을까?를 정말 많이 고민하게 됩니다. 단순히 캐글에서 제공해주는 타이타닉으로 해본다? 좀 뭔가 현설직이지는 않습니다. 개인적으로는 이 신용카드 사기 탐지가 머신러닝 기본기를 다지기도 좋고 재밌기도 하더군요! 그래서 머신러닝으로 신..