목록Data Analysis (4)
꿈 많은 사람의 이야기
포스팅 개요 지난 포스팅에서 오픈 소스 비즈니스 인텔리젼스 툴(Open source business intellgence tool)인 메타베이스(Metabase)에 대한 대락적인 소개를 했습니다. 또한, 데이터베이스(MySQL, MariaDB, Athena, Oracle) 연동하는 방법에 대해서도 작성했었습니다. 사실, Metabase의 가장 큰 강점은 Dashboard를 만들어서 데이터를 확인할 수 있다는 것입니다. 따라서 본 포스팅에서는 Metabase에서 Collection을 생성하고 대시보드(Dashboard)를 만드는 방법에 대해서 작성하려고 합니다. 지난 포스팅은 아래 링크와 같습니다. lsjsj92.tistory.com/609 Metabase 설치 방법 - MySQL(MariaDB) 연동 및..
포스팅 개요 Metabase(메타베이스)는 오픈 소스 비즈니스 인텔리젼스 툴(open source business intelligence tool)입니다. Database를 연동하고 그 연결된 DB에서 데이터를 시각화 할 수 있는 툴입니다. 기본적으로 SQL로 동작할 수 있고 간단하게 클릭 식으로도 볼 수 있는 매우 유용한 시각화 툴입니다. 그래서 이번 포스팅에서는 이 Metabase를 어떻게 설치할 수 있는지, 그 과정에서 무슨 에러가 발생할 수 있고 어떻게 대처할 수 있는지를 작성합니다. 또한, 기본적으로 Metabase는 AWS Athena 연동 및 Oracle 연동은 되지 않는데요. 이를 연동할 수 있는 방법도 작성하려고 합니다. 참고한 자료는 아래와 같습니다. www.metabase.com/do..
포스팅 개요 이번 포스팅은 파이썬(Python)에서 용량이 큰 csv 파일을 읽고 처리할 수 있는 방법을 정리합니다. 파이썬을 활용해서 데이터 분석 혹은 모델링 등을 하다보면 대용량의 csv 파일을 많이 다루게 되는데요. 이때 메모리 부족으로 인해(memory error) 메모리 에러가 나오는게 일상입니다. 이러한 large size csv file을 python에서 다룰 수 있는 방법이 간단하게 있는데요. 그 방법을 정리하고자 합니다. 최근에 메모리 효율 및 속도를 빠르게 다루는 방법도 정리해두었습니다. lsjsj92.tistory.com/604 Python(파이썬)에서 데이터 메모리 효율, 처리 속도 향상 시키는 기본 방법 정리(feat. pandas, numpy) 포스팅 개요 이번 포스팅은 최근 회..
이번 포스팅은 머신러닝으로 신용카드 사기를 탐지하는 모델을 만들어보려고 합니다. 해당 포스팅의 데이터는 kaggle에서 제공해준 kaggle credit card fraud를 사용했습니다. 또한, 한 커널을 필사하면서 진행하며 참고했는데요. 커널은 아래와 같습니다. (https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets) 머신러닝의 기본적인 내용을 공부하면서 이것을 어떻게 적용할 수 있을까?를 정말 많이 고민하게 됩니다. 단순히 캐글에서 제공해주는 타이타닉으로 해본다? 좀 뭔가 현설직이지는 않습니다. 개인적으로는 이 신용카드 사기 탐지가 머신러닝 기본기를 다지기도 좋고 재밌기도 하더군요! 그래서 머신러닝으로 신..