목록Data Science (20)
꿈 많은 사람의 이야기
포스팅 개요 이번 포스팅은 추천 시스템 평가(Evaluation Metrics for recommender system)에 대해서 지극히 '개인적인' 생각을 정리한 포스팅입니다. '추천 시스템 평가는 어떻게 하면 좋을까?' 이 부분을 추천 시스템 프로젝트를 하면서 그리고 추천 시스템 스터디를 진행하면서 정말 많이 생각했었습니다. 그래서 제가 리딩을 했던 추천 시스템 스터디 마지막 날에 이 주제를 가지고 제가 발표를 했었고 그 내용을 이번 포스팅에 정리해보고자 합니다. 참고한 자료는 아래와 같습니다. towardsdatascience.com/an-exhaustive-list-of-methods-to-evaluate-recommender-systems-a70c05e121de medium.com/@cfpine..
포스팅 개요 이번 포스팅은 2020년 02월 말. 글또 4기를 시작하고, 2020년 08월 글또 4기를 활동을 마무리 지으며 작성하는 회고 글입니다. 2020.02.27 글또 4기 참여하는 다짐글을 작성한 이후에 제가 어떤 글을 작성했는지, 그 목표는 이루었는지, 반성사항은 무엇인지, 앞으로 어떤 글을 작성하고 싶은지를 정리합니다. 저의 글또 4기 다짐글은 아래와 같습니다. https://lsjsj92.tistory.com/576 글 쓰는 또라이가 세상을 바꾼다 - 글또 4기를 참여하며 포스팅 개요 이번 포스팅은 글또 4기를 참여하며 어떤 목적으로 글또를 참여하게 되었고 어떻게 활동할 것인지에 대한 다짐글입니다. 글또란 무엇인지, 제가 어떠한 다짐을 가지고 참여를 신청� lsjsj92.tistory.co..
포스팅 개요 이번 포스팅은 kubeflow pipeline을 cron job(batch job)으로 반복 실행시키는 방법에 대해서 작성합니다. kubeflow cron job은 내부적으로 recurring job으로 보이고 이를 설정했을 때 scheduled workflows로 설정되는데요. 이를 설정하면 특정 시간, 혹은 특정 기간 마다 kubeflow pipeline을 반복적으로 실행합니다. 이번 포스팅은 이와 같은 방법에 대해 정리합니다. kubeflow 설치와 기본적인 설명은 지난 포스팅에서 작성했던 내용을 기반으로 설명합니다. 지난 포스팅은 아래 링크이므로 글을 읽다가 잘 모르시겠으면 참고해주세요. https://lsjsj92.tistory.com/580 kubeflow 설치하기 - Machin..
포스팅 개요 이번 포스팅은 session based 추천 시스템(Recommender system)에 관해서 간단한 리뷰와 삽질 후기입니다. 최근 회사에서 sequential data에 대해서 recommender system을 진행하게 되었었는데요. 그때 여러 방면으로 조사하던 중 Session based recommendation 방법을 알게 되었습니다. 그리고 대표 논문 중 하나인 Session based recommendation with rnn 논문을 알게 되었고 이 논문에서 받은 아이디어를 기반으로 1주일 동안 개인적으로 시도해 보았던 것(결론은 삽질 ㅠ)들을 글로 정리해보고자 합니다. 논문과 해당 논문의 코드는 아래 URL에 있습니다. 논문 : https://arxiv.org/abs/1511..
포스팅 개요 이번 포스팅은 kubeflow 예제(kubeflow example)를 주제로 다룹니다. 지난 포스팅에 이어서 이번에는 kubeflow에서 실행시킨 machine learning 혹은 deep learning 모델에서 나온 metrics를 ( evaluation 값) 출력하는 방법에 대해서 알아봅니다. 또한, kubeflow에서 Condition이라는 것을 통해 어떤 조건을 체크하고 조건에 따라 분기가 일어나는 방법에 대해서 알아보려고 합니다. 저의 kubeflow 관련 지난 포스팅은 아래 링크와 같습니다. 참고 하실 분들은 참고하시면 되겠습니다. kubeflow install 방법 : https://lsjsj92.tistory.com/580 kubeflow example with iris :..
포스팅 개요 이번 포스팅은 머신러닝 파이프라인(Machine Learning pipeline)에 대해서 알아보는 포스팅입니다. 머신러닝 프로젝트를 하다 보면 필요성을 느끼게 되는 머신러닝 파이프라인. 이것이 왜 중요하고, 무슨 의미를 지니고 있는지에 대해서 간략하게 소개하려고 합니다. 포스팅 본문 머신러닝 파이프라인이란? - Machine Learning pipeline? 머신러닝 파이프라인이란 용어는 아마도 머신러닝이나 딥러닝과 같은 프로젝트를 하다보면 많이 들어보셨을 지도 모르겠습니다. 짧은 경험이지만, 머신러닝 프로젝트를 조금씩 진행해보면서 느낀 것은 아래 그림과 같습니다. 아마도 많이 보셨을 만한 사진일 겁니다. 처음 이 그림을 보고 정말 많이 공감했습니다. 저는 처음 머신러닝과 딥러닝을 공부할 ..
포스팅 개요 해당 글에 대한 코드는 아래 github 링크에 전부 올려두었습니다. https://github.com/lsjsj92/recommender_system_with_Python/blob/master/004.%20recommender%20system%20basic%20with%20Python%20-%203%20Matrix%20Factorization.ipynb lsjsj92/recommender_system_with_Python recommender system tutorial with Python. Contribute to lsjsj92/recommender_system_with_Python development by creating an account on GitHub. github.com 이..
포스팅 개요 이번 포스팅은 추천 시스템(recommendation system) 기본 2탄입니다. 지난 포스팅에서 추천 시스템이 왜 중요한지, 어떤 종류가 있는지 간략하게 살펴보았습니다. (https://lsjsj92.tistory.com/563) 추천 시스템(Recommendation system)이란? - content based filtering, collaborative filtering 포스팅 개요 이번 포스팅은 추천 시스템(recommedation system)에 대해서 알아봅니다. 또한, 추천 시스템에는 컨텐츠 기반 필터링(content based filtering)과 협력 필터링(collaborative filtering)이 있는데요... lsjsj92.tistory.com 추천 시스템의 ..
포스팅 개요 2019년을 되돌아보며 회고하는 글이다. 현재 데이터 사이언티스트(data scientist) 직무에 속한 상태로 2019년을 마무리 하기 때문에 포스팅 제목을 data scientist로 마무리하는 2019년 회고로 정했다. data scientist로써 이수진의 2019년은 짧게 요약하면 아래와 같다. - 개인적으로 너무 힘들었던 해 - 힘들었던 것을 이겨낸 후 시야가 넓어진 해 - 중요한 것과 중요하지 않은 것이 무엇인지 조금은 알 수 있었던 해 - 감사하다는 말을 정말 많이 들어본 해 - 2020년에 이루고자 하는 목표가 있고 꼭 이루고 싶다. - 지금은 데이터 사이언스 분야에 안 맞는 실력이다. 부끄럽지 않은 실력을 갖추겠다. 본문 시간 정말 빠르다. 2018년 회고록 쓴 것이 엊그..
포스팅 주제 더보기 이번 포스팅은 지난 포스팅에 이어서 캐글의 신용카드 사기 탐지(kaggle credit card fraud detection) 데이터를 활용합니다. 또한, kaggle credit card fraud detection의 커널 중 https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets 커널을 참조하여 공부하고 정리하였습니다. 이번 글은 지난 글에서 진행한 신용카드 사기 탐지 데이터의 데이터 스케일(data scale)을 변경시켜보려고 합니다. 그리고 이렇게 데이터 스케일이 변경되었을 때 머신러닝 모델 성능이 어떻게 변화되는지 살펴보겠습니다. 지난 포스팅에서는 데이터 원본을 그대로 사용하여 단순히..