목록데이터 분석 (11)
꿈 많은 사람의 이야기
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/EsZh7/btqVkLUjhu9/vhEFtkfH8HieI4I0dsssK1/img.png)
포스팅 개요 Metabase(메타베이스)는 오픈 소스 비즈니스 인텔리젼스 툴(open source business intelligence tool)입니다. Database를 연동하고 그 연결된 DB에서 데이터를 시각화 할 수 있는 툴입니다. 기본적으로 SQL로 동작할 수 있고 간단하게 클릭 식으로도 볼 수 있는 매우 유용한 시각화 툴입니다. 그래서 이번 포스팅에서는 이 Metabase를 어떻게 설치할 수 있는지, 그 과정에서 무슨 에러가 발생할 수 있고 어떻게 대처할 수 있는지를 작성합니다. 또한, 기본적으로 Metabase는 AWS Athena 연동 및 Oracle 연동은 되지 않는데요. 이를 연동할 수 있는 방법도 작성하려고 합니다. 참고한 자료는 아래와 같습니다. www.metabase.com/do..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cf0BxT/btqFnPkZCkY/RvibXwOBMM7n0ixbPPCdb1/img.png)
포스팅 개요 이번 포스팅은 파이썬(Python)에서 용량이 큰 csv 파일을 읽고 처리할 수 있는 방법을 정리합니다. 파이썬을 활용해서 데이터 분석 혹은 모델링 등을 하다보면 대용량의 csv 파일을 많이 다루게 되는데요. 이때 메모리 부족으로 인해(memory error) 메모리 에러가 나오는게 일상입니다. 이러한 large size csv file을 python에서 다룰 수 있는 방법이 간단하게 있는데요. 그 방법을 정리하고자 합니다. 최근에 메모리 효율 및 속도를 빠르게 다루는 방법도 정리해두었습니다. lsjsj92.tistory.com/604 Python(파이썬)에서 데이터 메모리 효율, 처리 속도 향상 시키는 기본 방법 정리(feat. pandas, numpy) 포스팅 개요 이번 포스팅은 최근 회..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cWLRgF/btqz74gIf5T/dXlfm6uLYMJj43pXRqBM21/img.jpg)
이번 포스팅은 머신러닝으로 신용카드 사기를 탐지하는 모델을 만들어보려고 합니다. 해당 포스팅의 데이터는 kaggle에서 제공해준 kaggle credit card fraud를 사용했습니다. 또한, 한 커널을 필사하면서 진행하며 참고했는데요. 커널은 아래와 같습니다. (https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 머신러닝의 기본적인 내용을 공부하면서 이것을 어떻게 적용할 수 있을까?를 정말 많이 고민하게 됩니다. 단순히 캐글에서 제공해주는 타이타닉으로 해본다? 좀 뭔가 현설직이지는 않습니다. 개인적으로는 이 신용카드 사기 탐지가 머신러닝 기본기를 다지기도 좋고 재밌기도 하더군요! 그래서 머신러닝으로 신..
이번 커널 필사편은 자연어 처리 부분입니다.당분간은 자연어 처리 위주로 글을 올릴 예정입니다캐글에 있는 자연어 처리 데이터 중 쉬운 편에 속하는 스팸(sparm or ham) 데이터를 가지고 해당 글이 스팸인지 아닌지를 딥러닝으로 처리해보겠습니다.https://www.kaggle.com/uciml/sms-spam-collection-dataset캐글 데이터는 여기서 구할 수 있습니다! 먼저 필요한 라이브러리를 불러옵니다파이썬의 판다스(pandas), numpy와 그래프를 그릴 matplotlib, seaborn을 불러옵니다.그리고 머신러닝 라이브러리 scikit learn(사이킷런)과 딥러닝 라이브러리인 keras(케라스)를 불러옵니다 데이터는 v1, v2 컬럼으로 각각 라벨, 문장으로 되어있습니다.하지..
최근에 캐글을 하면서 가장 많이 헷갈렸던 부분이바로 StratifiedKFold와 pandas에서 axis=0, 1의 대한 개념이었다. 아무것도 모르는 상태도 아니었고 개념적으로는 알고 있었는데막상 코드를 필사하면서 보니까 정말 헷갈렸었다그래서 정리를 간단하게 해보려고 한다. 먼저 간단하게 데이터셋을 만들어본다.pd.DataFrame을 통해서 만든다 자, 처음으로는 StratifiedKFold를 해본다.from sklearn.model_selection import StratifiedKFold를 통해 라이브러리를 가져온다.사용법은 정말 간단하다. StratifiedKFold를 선언하고 splits 개수와 shuffle 여부, random_state 등을 설정해준다.그리고 저 상태에서 바로 .split(x..
꽤나 오래전에 겪었던 에러인데..이제서야 올려본다 파이썬 라이브러리중 판다스(pandas)를 사용하다보면 가끔 이런 에러를 겪는다. Error Tokenizing data. C error : EOF inside string starting at line ~~ 이라는 에러이다. 본인은 이걸 pandas read_csv 등을 할 때 겪었었는데 아무리해도 해결방법을 찾지 못했었다. 그러다가 찾은 해결 방법.. 그냥 새롭게 파일을 만든다. 외부에서 만드는게 아니라 파이썬 내부 코드로 csv 파일을 읽고 그대로 다시 dataframe을 짜서 그걸 다시 csv로 똑같이 저장한다.그러면 이상하게 잘 된다. 혹시 모르니까 파일을 읽을 때 공백 제거해주는 strip을 쓰면 좋다.
https://lsjsj92.tistory.com/396 지난 포스팅에서 엘라스틱 서치(elasticsearch)를 설치했습니다. 이번에는 우분투(ubuntu)에 kibana를 설치해봅니다. 앞선 글에서 설명했듯이Elasticsearch, kibana, logstash 3개는 각기 다른 서버에 구성합니다.그래서 설정을 각 서버 포트로 설정할겁니다. 키바나를 설치해보고 엘라스틱 서치와 연동해보겠습니다 https://www.elastic.co/kr/downloads/kibana 사이트에 들어가시면 최신 키바나 버전을 볼 수 있습니다.저는 우분투에 설치할 것이기 떄문에 DEB 64bit로 받았습니다.저 때까지만 해도 최신 버전이 6.4.3버전이네요. 이걸로 받겠습니다. 다 받아졌으면 sudo dpkg -i k..
이번 포스팅은 파이썬을 이용해서 공공데이터를 분석합니다. 매년 마다 우리나라에 입국하는 입국자 데이터가 있는데요!뭐 여행으로, 의료목적으로 등등 다양하게 들어옵니다. 그래서 어떤 나라에서, 얼마만큼 사람들이 들어왔는지 분석해봅니다 파이썬(python)을 사용했구요.numpy, pandas, matplot, seaborn 라이브러리를 이용합니다.그리고 간단한 머신러닝 데이터로 로지스틱 회귀(logistic regression)을 사용합니다.이건 사이킷런(scikit learn)을 사용하구요. 자 그럼 시작해볼까요 데이터는 이렇게 되어 있습니다.안에 엑셀 파일을 가지고 데이터를 분석해야 하는데요.먼저 pandas를 이용해 데이터를 불러옵니다. 근데 이 컬럼이 별로 좋지 않아요.분석하기가 쉽지 않습니다.저는 ..
데이터를 분석하는데 있어 시각화는 필수입니다단순히 엑셀, 워드 같은 파일에 숫자만 적혀있는들 그걸 명확하게 볼 수 있지 않습니다. 그 데이터를 시각화해야 눈에 쉽게 보입니다. 데이터 사이언스에서는 이 시각화가 기본입니다. 공공데이터를 기반으로 데이터 시각화 하는 것을 해보려고 합니다.파이썬(python)을 이용합니다.파이썬의 matplotlib와 seaborn라이브러리로 시각화를하구요pandas, numpy등을 사용해 전처리 작업을 진행합니다. 데이터는 위와 같습니다.다양한 교통사고 데이터가 있는데요이번 포스팅에서는 2016 부문별 고속도로 교통사고를 분석해봅니다. 안에 데이터를 보면 위와 같이 나와있습니다.하지만 위와 같은 데이터 형태로 바로 파이썬에서 분석할 수 없습니다.이 전처리 작업을 위해서num..
최근 캐글(kaggle)에 입문한 뉴비입니다.여러가지 시행착오를 겪으면서 캐글을 하고 있는데요좋은 데이터 셋과 오픈된 커널은 캐글의 정말 큰 강점입니다. 하지만 좀 여러모로 사용하기도 어려운 부분이 있습니다.어렵다기보다는 뭐가 뭔지 햇갈리는거죠 그 중 하나가 커널 삭제였습니다. 이제 캐글에서 커널을 삭제하는 방법을 소개합니다 먼저 본인 kaggle에 들어가서 my profile에 들어갑니다 그러면 위와 같이 kernels탭이 있는데요여기에 들어가면 본인이 추가한 커널(kernel)이 있습니다. 저 같은 경우는 잘못 생성된 커널이 좀 많았습니다.처음하는 것이라서.. 막 추가하다보니 ㅎㅎ그래서 필요한 커널 외에 전부 지우려고 합니다. 지우려는 커널에 들어가면요 이렇게 옵션이 뜹니다.(이 화면이 안나올 수도 ..