목록데이터 시각화 (4)
꿈 많은 사람의 이야기
포스팅 개요 Metabase(메타베이스)는 오픈 소스 비즈니스 인텔리젼스 툴(open source business intelligence tool)입니다. Database를 연동하고 그 연결된 DB에서 데이터를 시각화 할 수 있는 툴입니다. 기본적으로 SQL로 동작할 수 있고 간단하게 클릭 식으로도 볼 수 있는 매우 유용한 시각화 툴입니다. 그래서 이번 포스팅에서는 이 Metabase를 어떻게 설치할 수 있는지, 그 과정에서 무슨 에러가 발생할 수 있고 어떻게 대처할 수 있는지를 작성합니다. 또한, 기본적으로 Metabase는 AWS Athena 연동 및 Oracle 연동은 되지 않는데요. 이를 연동할 수 있는 방법도 작성하려고 합니다. 참고한 자료는 아래와 같습니다. www.metabase.com/do..
https://lsjsj92.tistory.com/396 지난 포스팅에서 엘라스틱 서치(elasticsearch)를 설치했습니다. 이번에는 우분투(ubuntu)에 kibana를 설치해봅니다. 앞선 글에서 설명했듯이Elasticsearch, kibana, logstash 3개는 각기 다른 서버에 구성합니다.그래서 설정을 각 서버 포트로 설정할겁니다. 키바나를 설치해보고 엘라스틱 서치와 연동해보겠습니다 https://www.elastic.co/kr/downloads/kibana 사이트에 들어가시면 최신 키바나 버전을 볼 수 있습니다.저는 우분투에 설치할 것이기 떄문에 DEB 64bit로 받았습니다.저 때까지만 해도 최신 버전이 6.4.3버전이네요. 이걸로 받겠습니다. 다 받아졌으면 sudo dpkg -i k..
이번 포스팅은 파이썬을 이용해서 공공데이터를 분석합니다. 매년 마다 우리나라에 입국하는 입국자 데이터가 있는데요!뭐 여행으로, 의료목적으로 등등 다양하게 들어옵니다. 그래서 어떤 나라에서, 얼마만큼 사람들이 들어왔는지 분석해봅니다 파이썬(python)을 사용했구요.numpy, pandas, matplot, seaborn 라이브러리를 이용합니다.그리고 간단한 머신러닝 데이터로 로지스틱 회귀(logistic regression)을 사용합니다.이건 사이킷런(scikit learn)을 사용하구요. 자 그럼 시작해볼까요 데이터는 이렇게 되어 있습니다.안에 엑셀 파일을 가지고 데이터를 분석해야 하는데요.먼저 pandas를 이용해 데이터를 불러옵니다. 근데 이 컬럼이 별로 좋지 않아요.분석하기가 쉽지 않습니다.저는 ..
데이터를 분석하는데 있어 시각화는 필수입니다단순히 엑셀, 워드 같은 파일에 숫자만 적혀있는들 그걸 명확하게 볼 수 있지 않습니다. 그 데이터를 시각화해야 눈에 쉽게 보입니다. 데이터 사이언스에서는 이 시각화가 기본입니다. 공공데이터를 기반으로 데이터 시각화 하는 것을 해보려고 합니다.파이썬(python)을 이용합니다.파이썬의 matplotlib와 seaborn라이브러리로 시각화를하구요pandas, numpy등을 사용해 전처리 작업을 진행합니다. 데이터는 위와 같습니다.다양한 교통사고 데이터가 있는데요이번 포스팅에서는 2016 부문별 고속도로 교통사고를 분석해봅니다. 안에 데이터를 보면 위와 같이 나와있습니다.하지만 위와 같은 데이터 형태로 바로 파이썬에서 분석할 수 없습니다.이 전처리 작업을 위해서num..