목록분류 전체보기 (584)
꿈 많은 사람의 이야기

포스팅 개요 머신러닝(machine learning)과 딥러닝(deep learning)에서 사용되는 앙상블 중 스태킹 앙상블(stacking ensemble) 2번째 포스팅입니다. 지난 포스팅에서는 스태킹 앙상블의 기본적인 방법과 배경 지식을 소개했습니다. https://lsjsj92.tistory.com/558 머신러닝 스태킹 앙상블(stacking ensemble) 이란? - 스태킹 앙상블 기본편(stacking ensemble basic) 포스팅 개요 머신러닝과 딥러닝에서 자주 사용하는 알고리즘이 있습니다. 특히, 머신러닝쪽에서 많이 사용하는데 그것은 앙상블(ensemble)이라는 방법입니다. 앙상블(ensemble)은 크게 보팅(voting), 배깅(bagging.. lsjsj92.tistory..

포스팅 개요 머신러닝과 딥러닝에서 자주 사용하는 알고리즘이 있습니다. 특히, 머신러닝쪽에서 많이 사용하는데 그것은 앙상블(ensemble)이라는 방법입니다. 앙상블(ensemble)은 크게 보팅(voting), 배깅(bagging), 부스팅(boosting)으로 나뉘어지는데 추가로 스태킹(stacking)이라는 방법도 있습니다. 스태킹 앙상블(stacking ensemble)은 캐글(kaggle)에서 점수를 조금이라도 더 높이고자 할 때 사용하는 앙상블 방법입니다. 이번 포스팅은 이러한 머신러닝 스태킹 앙상블(stacking ensemble)에 대해서 기본적인 구조를 알아보는 포스팅입니다. 참고 출처는 아래와 같습니다. https://www.kaggle.com/getting-started/18153 ht..

포스팅 개요 이번 포스팅은 머신러닝과 딥러닝에서 많이 사용하는 데이터 이상치 탐지(outlier detection)에 대해서 작성합니다. 또한, 지난 포스팅인 캐글의 신용카드 사기 탐지 대회 데이터셋(kaggle credit card fraud detection data)을 이용하며 신용카드 사기 탐지 3편입니다. 참조한 자료는 kaggle의 커널(https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 입니다. 그 외의 참조 자료는 구글링 자료입니다. 코드는 아래 github에 존재합니다. https://github.com/lsjsj92/machine_learning_basic lsjsj92/machine_le..

포스팅 주제 더보기 이번 포스팅은 지난 포스팅에 이어서 캐글의 신용카드 사기 탐지(kaggle credit card fraud detection) 데이터를 활용합니다. 또한, kaggle credit card fraud detection의 커널 중 https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets 커널을 참조하여 공부하고 정리하였습니다. 이번 글은 지난 글에서 진행한 신용카드 사기 탐지 데이터의 데이터 스케일(data scale)을 변경시켜보려고 합니다. 그리고 이렇게 데이터 스케일이 변경되었을 때 머신러닝 모델 성능이 어떻게 변화되는지 살펴보겠습니다. 지난 포스팅에서는 데이터 원본을 그대로 사용하여 단순히..

이번 글은 본인의 첫 강의 경험을 기반으로 작성되는 글이다. 어떻게 이러한 강의 기회가 오게 되었고 왜 내가 강의를 해보기로 결심했는지 그리고 그 후기는 어떤지 작성해보고자 한다. 부디 어떤 사람들에게는 도움이 되기를 바라면서. 그리고 무엇보다 미래에 또 다른 기회가 왔을 때 이 글을 기반으로 본인 자신을 돌아보기 바라면서 작성한다. 글이 꽤나 길다. 짧게 요약하면 아래와 같다. - 이번 강의는 5일동안 하루 7시간 강의하는 Data Engineering 강의었다. Apache Hadoop, Spark, Hive, NiFi 등의 내용을 다룬 강의다. - 강의 기회가 오면 해보는 것을 추천한다. 정말 다양한 경험을 할 수 있다. - 하지만, 무조건 하라고는 못하겠다. 상황을 보고 판단해야 한다. - 강의에..

이번 포스팅은 머신러닝으로 신용카드 사기를 탐지하는 모델을 만들어보려고 합니다. 해당 포스팅의 데이터는 kaggle에서 제공해준 kaggle credit card fraud를 사용했습니다. 또한, 한 커널을 필사하면서 진행하며 참고했는데요. 커널은 아래와 같습니다. (https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 머신러닝의 기본적인 내용을 공부하면서 이것을 어떻게 적용할 수 있을까?를 정말 많이 고민하게 됩니다. 단순히 캐글에서 제공해주는 타이타닉으로 해본다? 좀 뭔가 현설직이지는 않습니다. 개인적으로는 이 신용카드 사기 탐지가 머신러닝 기본기를 다지기도 좋고 재밌기도 하더군요! 그래서 머신러닝으로 신..

이번 포스팅은 우분투 환경에서 도커를 설치하는 방법에 대해서 소개합니다. ubuntu 16.04 기준으로 docker를 설치합니다. 어떤 환경이든 상관없긴 할태지만 저는 AWS EC2 환경에서 Ubuntu 16.04를 설치했습니다. 설치하는 과정은 굉장히 간단합니다. 먼저 sudo apt-get update를 해줘서 apt를 update해줍니다. AWS EC2에서 처음 인스턴스를 생성했을 때는 이렇게 update를 해줘야 하더군요. 그리고 sudo apt-get remove docker docker-engine docker.io를 통해 기존에 있던 도커가 만약에 있으면 여러 충돌 문제 방지를 위해 미리 지워줍니다. 그리고 이제 도커를 설치해주면 됩니다! sudo apt install docker.io 를..

AWS 서버를 사용하다보면 port를 열어야합니다. 근데 이게 ui가 바뀌면 어딨는지 헷갈려서 AWS 서버에서 포트를 여는 방법(AWS port open)에 대해서 정리하고자 합니다. 참고 : 저는 AWS EC2 서버 환경 기준 AWS 서버 포트를 open하였습니다. 저 같은 경우에는 아래와 같은 상황이었습니다. 내부적으로 포트는 열려 있는 상태였죠. ubuntu 포트 확인하는 방법인 netstart -tnlp를 쳐보니 원하는 포트가 열려있었습니다. 이렇게 말이죠. 근데 이거를 웹 환경에서 접속할 수 있어야 하는데 웹으로 접속하니 연결할 수 없다고 나옵니다. 즉, AWS 자체에서 포트를 열어주지 못한 것이죠. 일종의 AWS 규칙을 넣어주어야 합니다. AWS의 인스턴스가 있는 곳으로 이동하세요. 거기에 보..

서버를 운영하다보면 하드디스크(HDD)의 용량이 부족할 때가 있습니다. 사실 종종 있는 일입니다. 특히나 클라우드 환경에서 사용할 때는 처음에 하드디스크 용량이 적게 잡혀 있을 수가 있기 때문입니다. 그래서 이번 포스팅은 AWS 서비스 중 EC2를 기준으로 HDD(하드디스크)를 늘리는 방법에 대해서 소개합니다. 자세한 내용은 AWS 공식 문서를 참고해주시면 될 것 같습니다.(https://docs.aws.amazon.com/ko_kr/AWSEC2/latest/UserGuide/ebs-describing-volumes.html) 저는 간단하게 사용하는 방법에 대해서 소개합니다. 먼저 AWS 서비스에 들어가서 EC2 인스턴스를 확인합니다. 인스턴스 안에 루트 디바이스라는 것이 있는데요. /dev/sda1 뭐..

얼마전 AWS를 사용할 일이 있었습니다. AWS 서비스 중 EC2라는 서비스를 사용했는데요. 직접 EC2 인스턴스도 생성하고 서버를 셋팅을 했습니다. 그러고 나서 이제 SSH 접속을 하려고 했는데요. 바로 root 계정으로 접속하려고 하니 바로 되지 않았습니다. 보안 때문에 그런 것 같았어요. 그래서 AWS EC2 서비스를 실행시키고 Putty 같은 SSH 프로그램으로 EC2에 접속하는 방법을 정리해보고자 합니다. 자, 먼저 EC2의 인스턴스 정보가 있는 창으로 가야합니다. AWS에서 제공해주죠 여기에서 보면 퍼블릭 IP, 퍼블릭 DNS 등이 보입니다. 저 정보를 가지고 Putty 등을 사용해 SSH 접속을 해야합니다. 먼저 저걸로 바로 접속을 하면요 여기서 접속을 못합니다. 이게 인스턴스를 생성할 때 ..