목록machine learning(머신러닝) (19)
꿈 많은 사람의 이야기
포스팅 개요 이번 포스팅은 Mac os 환경에서 lightgbm을 설치하는 방법에 대해 정리합니다. 매번 lightgbm을 설치할 때마다 공식 문서대로 해도 설치가 잘 되지 않는 삽질을 하게 되는데 이번 기회에 정리를 해보고자 합니다. 제가 참고한 자료는 아래와 같습니다. https://lightgbm.readthedocs.io/en/latest/ 포스팅 본문 본 포스팅은 mac os Python 환경에서 머신러닝(machine learning) 알고리즘 중 강력한 알고리즘 중 하나인 lightgbm 라이브러리를 설치하는 방법에 대해 정리합니다. 본 포스팅은 아래와 같은 구성으로 작성합니다. MacOS에서 lightgbm 설치하기 각종 오류와 삽질들 1. MacOS에서 lightgbm 설치하기 먼저, 제..
포스팅 개요 본 포스팅은 How and Where is artificial intelligence in the public sector going? - A literature review and research agenda 이라는 논문을 리뷰하는 포스팅입니다. 해당 논문은 대학원 과정을 진행하면서 접했던 논문입니다. 이 논문은 공공부문의 영역에서 AI 서비스가 어떻게 적용되고 있고 어떤 트랜드로 흘러가는지 분석한 논문입니다. 제 블로그에서 주로 다루는 AI 기술(AI tech)에 대한 알고리즘이나 트랜드에 대한 논문과 조금 다른 성격의 논문인데 개인적으로는 수업들으면서 재밌게 읽었던 논문이어서 간단하게 리뷰를 남겨보려고 합니다. 본 논문은 아래 링크와 같습니다. www.sciencedirect.com/s..
포스팅 개요 이번 포스팅은 네트워크 분석(network analysis)에서 커뮤니티 탐지(community detection)에 대해서 정리하는 글입니다. 또한, community detection의 알고리즘 중 louvain 알고리즘에 대해서도 간략하게 소개하려고 합니다. 본 포스팅에서 참조한 글과 파이썬(Python)으로 실습한 자료의 데이터 셋은 아래와 같습니다. https://www.kaggle.com/stackoverflow/stack-overflow-tag-network https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-1.html https://arxiv.org/abs/0803.0476 https://github.com/ta..
포스팅 개요 이번 포스팅은 시계열 데이터 분석(Time series data)에서 활용되는 공적분 분석(cointegration analysis)에 대해서 정리하는 포스팅입니다. 간단한 이론적 설명과 더불어 파이썬(Python)에서 이를 어떻게 활용할 수 있는지 예시로 알아봅니다. 본 포스팅 작성 시 참고 했던 자료들은 아래와 같습니다. https://datascienceschool.net/view-notebook/d5478c5ed2044cb9b88fa2ef015eb3a4/ https://www.statsmodels.org/stable/generated/statsmodels.tsa.stattools.coint.html https://namu.wiki/w/%EA%B3%B5%EC%A0%81%EB%B6%84 ..
포스팅 개요 이번 포스팅은 추천 시스템(recommendation system) 기본 2탄입니다. 지난 포스팅에서 추천 시스템이 왜 중요한지, 어떤 종류가 있는지 간략하게 살펴보았습니다. (https://lsjsj92.tistory.com/563) 추천 시스템(Recommendation system)이란? - content based filtering, collaborative filtering 포스팅 개요 이번 포스팅은 추천 시스템(recommedation system)에 대해서 알아봅니다. 또한, 추천 시스템에는 컨텐츠 기반 필터링(content based filtering)과 협력 필터링(collaborative filtering)이 있는데요... lsjsj92.tistory.com 추천 시스템의 ..
포스팅 개요 이번 포스팅은 추천 시스템(recommedation system)에 대해서 알아봅니다. 또한, 추천 시스템에는 컨텐츠 기반 필터링(content based filtering)과 협력 필터링(collaborative filtering)이 있는데요. 위와 같은 추천 시스템과 그 적용 방법에 대해서 포스팅을 하겠습니다. 추천 시스템(recommendation system)포스팅은 몇 번을 거친 시리즈 형태로 포스팅이 주기적으로 올라갈 예정입니다. 참고한 자료 https://www.kaggle.com/rounakbanik/movie-recommender-systems https://www.kaggle.com/ibtesama/getting-started-with-a-movie-recommendatio..
포스팅 개요 머신러닝(machine learning)과 딥러닝(deep learning)에서 사용되는 앙상블 중 스태킹 앙상블(stacking ensemble) 2번째 포스팅입니다. 지난 포스팅에서는 스태킹 앙상블의 기본적인 방법과 배경 지식을 소개했습니다. https://lsjsj92.tistory.com/558 머신러닝 스태킹 앙상블(stacking ensemble) 이란? - 스태킹 앙상블 기본편(stacking ensemble basic) 포스팅 개요 머신러닝과 딥러닝에서 자주 사용하는 알고리즘이 있습니다. 특히, 머신러닝쪽에서 많이 사용하는데 그것은 앙상블(ensemble)이라는 방법입니다. 앙상블(ensemble)은 크게 보팅(voting), 배깅(bagging.. lsjsj92.tistory..
포스팅 개요 머신러닝과 딥러닝에서 자주 사용하는 알고리즘이 있습니다. 특히, 머신러닝쪽에서 많이 사용하는데 그것은 앙상블(ensemble)이라는 방법입니다. 앙상블(ensemble)은 크게 보팅(voting), 배깅(bagging), 부스팅(boosting)으로 나뉘어지는데 추가로 스태킹(stacking)이라는 방법도 있습니다. 스태킹 앙상블(stacking ensemble)은 캐글(kaggle)에서 점수를 조금이라도 더 높이고자 할 때 사용하는 앙상블 방법입니다. 이번 포스팅은 이러한 머신러닝 스태킹 앙상블(stacking ensemble)에 대해서 기본적인 구조를 알아보는 포스팅입니다. 참고 출처는 아래와 같습니다. https://www.kaggle.com/getting-started/18153 ht..
포스팅 개요 이번 포스팅은 머신러닝과 딥러닝에서 많이 사용하는 데이터 이상치 탐지(outlier detection)에 대해서 작성합니다. 또한, 지난 포스팅인 캐글의 신용카드 사기 탐지 대회 데이터셋(kaggle credit card fraud detection data)을 이용하며 신용카드 사기 탐지 3편입니다. 참조한 자료는 kaggle의 커널(https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 입니다. 그 외의 참조 자료는 구글링 자료입니다. 코드는 아래 github에 존재합니다. https://github.com/lsjsj92/machine_learning_basic lsjsj92/machine_le..
포스팅 주제 더보기 이번 포스팅은 지난 포스팅에 이어서 캐글의 신용카드 사기 탐지(kaggle credit card fraud detection) 데이터를 활용합니다. 또한, kaggle credit card fraud detection의 커널 중 https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets 커널을 참조하여 공부하고 정리하였습니다. 이번 글은 지난 글에서 진행한 신용카드 사기 탐지 데이터의 데이터 스케일(data scale)을 변경시켜보려고 합니다. 그리고 이렇게 데이터 스케일이 변경되었을 때 머신러닝 모델 성능이 어떻게 변화되는지 살펴보겠습니다. 지난 포스팅에서는 데이터 원본을 그대로 사용하여 단순히..