목록machine-learning (9)
꿈 많은 사람의 이야기
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Lnuye/btqFVhUE5ii/4BBSPbOSky7i17qsOctbI0/img.png)
포스팅 개요 이번 포스팅은 kubeflow pipeline을 cron job(batch job)으로 반복 실행시키는 방법에 대해서 작성합니다. kubeflow cron job은 내부적으로 recurring job으로 보이고 이를 설정했을 때 scheduled workflows로 설정되는데요. 이를 설정하면 특정 시간, 혹은 특정 기간 마다 kubeflow pipeline을 반복적으로 실행합니다. 이번 포스팅은 이와 같은 방법에 대해 정리합니다. kubeflow 설치와 기본적인 설명은 지난 포스팅에서 작성했던 내용을 기반으로 설명합니다. 지난 포스팅은 아래 링크이므로 글을 읽다가 잘 모르시겠으면 참고해주세요. https://lsjsj92.tistory.com/580 kubeflow 설치하기 - Machin..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/sMpMC/btqEmLRt1p1/KK57jgovIO4VhpMogYBR1K/img.png)
포스팅 개요 이번 포스팅은 지난 글(kubeflow pipeline iris data)에 이어 kubeflow 예제(kubeflow example)에 대해서 작성합니다. 지난 글은 kubeflow 설치하는 방법과 kubeflow를 간단하게 사용할 수 있는 방법에 대해서 알아보았는데요. 이번 포스팅은 kubeflow 예제를 타이타닉(titanic data)데이터와 함께 예제를 작성합니다. 특히, AWS 서비스들과 연동하여 머신러닝 파이프라인(machine learning pipeline)을 구축해 보려고 합니다. 지난 포스팅은 아래 링크이므로 혹시 kubeflow가 설치되어 있지 않거나, 간단한 kubeflow 예제를 보고 싶으신 분들은 참조하시길 바랍니다. kubeflow 설치 : https://lsjs..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/wJaLu/btqDcxmB2Ba/mkjEShTsaGHG8bJryMjy5k/img.png)
포스팅 개요 이번 포스팅은 kubeflow 예제(kubeflow example)에 대해서 작성합니다. 지난 포스팅에서 kubeflow 설치하는 방법에 대해서 알아보았는데요. kubeflow 설치 후 kubeflow pipeline을 이용해서 kubeflow 사용하는 방법에 대해 작성합니다. 지난 포스팅은 아래 링크이므로 혹시 kubeflow install 방법에 대해서 알고 싶으시면 참고하시면 되겠습니다. https://lsjsj92.tistory.com/580 kubeflow 설치하기 - Machine Learning pipeline kubeflow install 포스팅 개요 이번 포스팅은 지난 글인 머신러닝 파이프라인이란?(Machine Learning pipeline) 글에 이어서 머신러닝 파이프라..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/lo94l/btqDbk9h1JH/LSCbJ0xzByHaGDnq01SGSk/img.png)
포스팅 개요 이번 포스팅은 지난 글인 머신러닝 파이프라인이란?(Machine Learning pipeline) 글에 이어서 머신러닝 파이프라인인 kubeflow를 설치(kubeflow install)하는 방법에 대해서 작성합니다. 지난 글 내용이 궁금하시다면 아래 링크를 따라 보시고 오면 될 것 같습니다. https://lsjsj92.tistory.com/579 머신러닝 파이프라인이란? - ML Pipeline에 대하여 포스팅 개요 이번 포스팅은 머신러닝 파이프라인(Machine Learning pipeline)에 대해서 알아보는 포스팅입니다. 머신러닝 프로젝트를 하다 보면 필요성을 느끼게 되는 머신러닝 파이프라인. 이것이 왜 중요하고,.. lsjsj92.tistory.com 또한, 본 글은 아래 링크에..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/btJar1/btqAnn12FzJ/dzwssK2lLVzltZikiNJHBk/img.jpg)
포스팅 주제 더보기 이번 포스팅은 지난 포스팅에 이어서 캐글의 신용카드 사기 탐지(kaggle credit card fraud detection) 데이터를 활용합니다. 또한, kaggle credit card fraud detection의 커널 중 https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets 커널을 참조하여 공부하고 정리하였습니다. 이번 글은 지난 글에서 진행한 신용카드 사기 탐지 데이터의 데이터 스케일(data scale)을 변경시켜보려고 합니다. 그리고 이렇게 데이터 스케일이 변경되었을 때 머신러닝 모델 성능이 어떻게 변화되는지 살펴보겠습니다. 지난 포스팅에서는 데이터 원본을 그대로 사용하여 단순히..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cWLRgF/btqz74gIf5T/dXlfm6uLYMJj43pXRqBM21/img.jpg)
이번 포스팅은 머신러닝으로 신용카드 사기를 탐지하는 모델을 만들어보려고 합니다. 해당 포스팅의 데이터는 kaggle에서 제공해준 kaggle credit card fraud를 사용했습니다. 또한, 한 커널을 필사하면서 진행하며 참고했는데요. 커널은 아래와 같습니다. (https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 머신러닝의 기본적인 내용을 공부하면서 이것을 어떻게 적용할 수 있을까?를 정말 많이 고민하게 됩니다. 단순히 캐글에서 제공해주는 타이타닉으로 해본다? 좀 뭔가 현설직이지는 않습니다. 개인적으로는 이 신용카드 사기 탐지가 머신러닝 기본기를 다지기도 좋고 재밌기도 하더군요! 그래서 머신러닝으로 신..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/r82C1/btqzT495GKp/cJekkdIkbGNfennTj7DyQk/img.jpg)
지난 포스팅까지 머신러닝 앙상블에 대해서 계속 올리고 있습니다. 머신러닝 앙상블(machine learning ensemble)에서는 대표적으로 배깅(bagging)과 부스팅(boosting)이 있습니다. 그 중 앙상블 부스팅(ensemble boosting)에 대해서 지속적으로 보고 있습니다. 머신러닝 부스팅 알고리즘은 틀린 부분에 가중치를 더하면서 진행하는 알고리즘인데요. Gradient Boosting Machine(GBM)은 그 가중치를 경사하강법(gradint boosting)으로 진행하였습니다. 그리고 지난 포스팅에서 소개한 ensemble xgboost는 기존의 gradient boosting 알고리즘의 단점을 조금이라도 보완한 알고리즘이라고 했습니다. 그렇게 강력한 성능을 제공하는 xgbo..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cOnUbY/btqzVoFI4wC/wmehPRm21zDEtYNAgaLS9K/img.jpg)
머신러닝에서는 앙상블(ensemble) 모델을 빼놓을 수가 없습니다. 이 앙상블에는 배깅(bagging)과 부스팅(boosting) 그리고 보팅(voting) 방법이 있습니다. 크게 보면 말이죠 이 중 ensemble bagging에 대해서는 지난 포스팅에서 random forest(랜덤 포레스트)로 설명을 했습니다. 그리고 ensemble boosting 또한 지난 포스팅에서 Gradient Boosting Machine와 Adaboost를 예시로 들면서 포스팅을 올렸습니다. 하지만 이런 GBM에는 문제점이 있습니다. Gradient Boosting의 문제점 머신러닝에서 앙상블 모델 중 부스팅(boosting)은 정말 강력합니다. 하지만 단점이 없는 것은 아닙니다. 특히 gradient boosting..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dD1XI3/btqy33KpIB9/mrlE0lHGhX8WzyEwG7RTfK/img.png)
최근 머신러닝, 딥러닝 등의 데이터를 활용한 기술적 요구, 서비스적 요구가 증가하고 있습니다. 단순히 기존에 웹 서비스, 앱 서비스를 제공해주는 것을 넘어서 사용자 데이터를 수집하는 방법, 저장하는 방법, 처리하는 방법에 대해서도 꾸준히 이야기가 나오고 있죠. 저는 최근에 저 중에서도 '머신러닝 프로젝트는 어떻게 관리되고, 어떻게 운용이 될까?'에 대해 정말 많이 궁금했었습니다. 이러한 프로젝트는 비교적 최근에 발생하고 있어서 어떤 것이 체계적인지 알 수 있는 방법이 많이 없었습니다. 예를 들어 웹 개발 같은 경우에는 Man Month 등을 계산해서 비용 계산하고, WBS나 간트 차트 등을 이용한 일정 관리 이후에 기획이 나오고 기획에 따른 개발 진행 등등 이런 프로세스가 있는 것으로 경험을 했는데(저의..