목록데이터사이언스 (19)
꿈 많은 사람의 이야기

포스팅 개요 이번 포스팅은 session based 추천 시스템(Recommender system)에 관해서 간단한 리뷰와 삽질 후기입니다. 최근 회사에서 sequential data에 대해서 recommender system을 진행하게 되었었는데요. 그때 여러 방면으로 조사하던 중 Session based recommendation 방법을 알게 되었습니다. 그리고 대표 논문 중 하나인 Session based recommendation with rnn 논문을 알게 되었고 이 논문에서 받은 아이디어를 기반으로 1주일 동안 개인적으로 시도해 보았던 것(결론은 삽질 ㅠ)들을 글로 정리해보고자 합니다. 논문과 해당 논문의 코드는 아래 URL에 있습니다. 논문 : https://arxiv.org/abs/1511..

포스팅 개요 이번 포스팅은 네트워크 분석(network analysis)에서 커뮤니티 탐지(community detection)에 대해서 정리하는 글입니다. 또한, community detection의 알고리즘 중 louvain 알고리즘에 대해서도 간략하게 소개하려고 합니다. 본 포스팅에서 참조한 글과 파이썬(Python)으로 실습한 자료의 데이터 셋은 아래와 같습니다. https://www.kaggle.com/stackoverflow/stack-overflow-tag-network https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-1.html https://arxiv.org/abs/0803.0476 https://github.com/ta..

포스팅 개요 이번 포스팅은 시계열 데이터 분석(Time series data)에서 활용되는 공적분 분석(cointegration analysis)에 대해서 정리하는 포스팅입니다. 간단한 이론적 설명과 더불어 파이썬(Python)에서 이를 어떻게 활용할 수 있는지 예시로 알아봅니다. 본 포스팅 작성 시 참고 했던 자료들은 아래와 같습니다. https://datascienceschool.net/view-notebook/d5478c5ed2044cb9b88fa2ef015eb3a4/ https://www.statsmodels.org/stable/generated/statsmodels.tsa.stattools.coint.html https://namu.wiki/w/%EA%B3%B5%EC%A0%81%EB%B6%84 ..

포스팅 개요 해당 글에 대한 코드는 아래 github 링크에 전부 올려두었습니다. https://github.com/lsjsj92/recommender_system_with_Python lsjsj92/recommender_system_with_Python recommender system with Python. Contribute to lsjsj92/recommender_system_with_Python development by creating an account on GitHub. github.com 이번 포스팅은 파이썬(Python)을 활용해서 추천 시스템(recommender system)을 구현해보는 포스팅입니다. 이번 포스팅은 "정말 단순한 아이디어"를 가지고 네이버 뉴스를 추천해주는 것을 구..

포스팅 개요 해당 글에 대한 코드는 아래 github 링크에 전부 올려두었습니다. https://github.com/lsjsj92/recommender_system_with_Python/blob/master/004.%20recommender%20system%20basic%20with%20Python%20-%203%20Matrix%20Factorization.ipynb lsjsj92/recommender_system_with_Python recommender system tutorial with Python. Contribute to lsjsj92/recommender_system_with_Python development by creating an account on GitHub. github.com 이..

포스팅 개요 해당 글에 대한 코드는 아래 github 링크에 전부 올려두었습니다. https://github.com/lsjsj92/recommender_system_with_Python/blob/master/003.%20recommender%20system%20basic%20with%20Python%20-%202%20Collaborative%20Filtering.ipynb lsjsj92/recommender_system_with_Python recommender system tutorial with Python. Contribute to lsjsj92/recommender_system_with_Python development by creating an account on GitHub. github.co..

포스팅 개요 2019년을 되돌아보며 회고하는 글이다. 현재 데이터 사이언티스트(data scientist) 직무에 속한 상태로 2019년을 마무리 하기 때문에 포스팅 제목을 data scientist로 마무리하는 2019년 회고로 정했다. data scientist로써 이수진의 2019년은 짧게 요약하면 아래와 같다. - 개인적으로 너무 힘들었던 해 - 힘들었던 것을 이겨낸 후 시야가 넓어진 해 - 중요한 것과 중요하지 않은 것이 무엇인지 조금은 알 수 있었던 해 - 감사하다는 말을 정말 많이 들어본 해 - 2020년에 이루고자 하는 목표가 있고 꼭 이루고 싶다. - 지금은 데이터 사이언스 분야에 안 맞는 실력이다. 부끄럽지 않은 실력을 갖추겠다. 본문 시간 정말 빠르다. 2018년 회고록 쓴 것이 엊그..

머신러닝에서는 앙상블(ensemble)을 정말 많이 사용합니다. 그 효과가 매우매우 강력하기 때문인데요. 이 앙상블에는 배깅(bagging), 부스팅(boosting) 등의 종류가 나뉘어져 있습니다. 지난 포스팅 때는 ensemble bagging에 대해서 설명했었고 random forest에 대해서도 설명했습니다. https://lsjsj92.tistory.com/542 머신러닝 bagging 앙상블 랜덤 포레스트(random forest)란? 머신러닝 앙상블에는 배깅(bagging), 보팅(voting), 부스팅(boosting)이 있습니다. 그 중 앙상블 bagging에 속한 랜덤 포레스트를 이번 포스팅에서 소개할까합니다. 이 random forest는 빠른 속도와 높은 예측 성.. lsjsj92...
데이터를 분석하는데 있어 시각화는 필수입니다단순히 엑셀, 워드 같은 파일에 숫자만 적혀있는들 그걸 명확하게 볼 수 있지 않습니다. 그 데이터를 시각화해야 눈에 쉽게 보입니다. 데이터 사이언스에서는 이 시각화가 기본입니다. 공공데이터를 기반으로 데이터 시각화 하는 것을 해보려고 합니다.파이썬(python)을 이용합니다.파이썬의 matplotlib와 seaborn라이브러리로 시각화를하구요pandas, numpy등을 사용해 전처리 작업을 진행합니다. 데이터는 위와 같습니다.다양한 교통사고 데이터가 있는데요이번 포스팅에서는 2016 부문별 고속도로 교통사고를 분석해봅니다. 안에 데이터를 보면 위와 같이 나와있습니다.하지만 위와 같은 데이터 형태로 바로 파이썬에서 분석할 수 없습니다.이 전처리 작업을 위해서num..