목록Bigdata (7)
꿈 많은 사람의 이야기
벌써 꽤 되었지만 지난 포스팅에서 도커(docker)에다가 centos7을 구축하고그 위에 하둡, 스파크, 제플린을 설치해서 배포까지 했습니다.과정은 아래 링크를 따라가시면 됩니당https://lsjsj92.tistory.com/418이거는 도커에 하둡(hadoop) 설치https://lsjsj92.tistory.com/422도커에 하둡(hadoop) 설치 후 아파치 스파크(apache spark) 설치https://lsjsj92.tistory.com/425아파치 제플린(apache zeppelin) 설치순서대로 따라가시면 1편부터 보실 수 있습니다. 이번 포스팅은현재 아파치 제플린까지 설치되어 있는 상태인데요여기에 이제 apache hive를 설치해보려고 합니다.하이브는 기존의 맵리듀스(mapreduc..
어느덧 설이 끝나고 한 주가 지났네요몸도 안좋았고 좀 정신이 없습니다 이번 포스팅은 apahce flume(아파치 플럼)과 apache kafka에 대해서 알아봅니다.빅데이터와 관련된 공부를 하게 되면 당연히 apache open source project에 대해서 많이 공부하게 되는데요대표적인게 하둡이죠.저장 하기 전에 수집 단계에서 많이 사용되는 소프트웨어가 플럼과 카프카입니다.먼저 플럼을 알아보고 그 다음 카프카(kafka)에 대해서 알아봅니다.이번 포스팅은 지난 게시글(하둡과 주키퍼, 얀 설치) 이후의 글입니다.https://lsjsj92.tistory.com/432https://lsjsj92.tistory.com/433을 참고하시면 되겠습니다.그리고 이 내용은 실무로 배우는 빅데이터 기술 책의 ..
지난 포스팅에서 클라우데라(cloudera) 환경에서 아파치 하둡을 설치했습니다. 더불어서 주키퍼(zookeeper), 얀(yarn)도 설치했죠.https://lsjsj92.tistory.com/432이제 이후의 기본적인 설정 방법입니다.아무래도 vm 환경이다 보니 높은 퍼포먼스로 진행하기 힘듭니다.저는 램이 16G인데도 각 노드 램을 4, 4, 2로 주니까 죽을라고 하네요 ㅋㅋㅋㅋㅋ 그래서 필요한 설정 등을 할 수 있습니다. 먼저 호스트에 들어가서 역할에 들어가봅니다 그러면 클러스터에서 각 노드들의 역할을 볼 수 있습니다~어떤 노드에 무엇이 설치되어 있는지 한 눈에 볼 수 있죠 그리고 클라우데라 매니저 메인으로 가서 HDFS 오른쪽의 화살표 버튼을 누르면 역할 인스턴스 추가가 보입니다.이걸 누르시면 위..
지난 포스팅에서 도커(docker)환경 centos7에서 하둡(hadoop)을 설치했습니다. https://lsjsj92.tistory.com/418 이번 포스팅에서는 하둡을 설치한 해당 도커 컨테이너에 아파치 스파크(apache spark)를 2버전으로 설치하려고 합니다. 아파치 스파크는 하둡의 맵리듀스 단점을 보완해줍니다.실시간 데이터 처리 기능(spark streaming)도 되고, 맵 리듀스, 나아가서 머신러닝 알고리즘(spark MLlib)도 지원해줍니다. 그렇기에 하둡과 연동해서 자주 사용하죠!이번 포스팅은 이 스파크를 설치해봅니다. 그리고 현재 도커 centos7에 하둡과 스파크까지 다 설치하고 docker hub(도커 허브)에 배포해봅니다. 도커 허브에 배포하면 해당 이미지를 가지고 다른 ..
이번에는 도커의 가장 강력한 기능중 하나인 docker compose에 대해서 알아보고 이걸 이용해서 빅데이터 분석 도구로 사용되고 있는 Elasticsearch-Logstash-Kibana(ELK)를 설치해보겠습니다. 먼저 도커 컴포즈(docker compose)에 대해서 알아봐야겠죠?복수개의 컨테이너가 하나의 애플리케이션으로 구동되는 경우 컨테이너 조합이 복잡해지기 쉽습니다. 예를 들어서 웹 애플리케이션을 하나 구축하려고 하면 web 서버 컨테이너 + WAS 서버 컨테이너 + DB 컨테이너 등을 생성해야하죠.근데 이걸 하나하나 run 시킨다?? 이건 너무 불편하죠.그래서 docker compose가 나옵니다. 도커 컴포즈는 여러개의 컨테이너를 개별 서비스로 인지하게 해서 컨테이너 묶음으로 관리하게 해..
지난 포스팅에서 빅데이터 도구인 ELK 스택 설치 부분에서 엘라스틱 서치 설치를 진행했고 키바나(kibana)를 설치해서 엘라스틱 서치와 연동했습니다.https://lsjsj92.tistory.com/398https://lsjsj92.tistory.com/396 을 참고하시면 되겠습니다.396이 엘라스틱 서치, 398은 키바나설치 및 엘라스틱 연동입니다. 이번 포스팅에서는 로그스태시(logstash)를 설치하고 엘라스틱 서치와 연동하겠습니다. 엘라스틱 서치와 연동하면 자동으로 키바나와 연동이 됩니다. 왜냐하면 이미 kibana랑 elasticsearch와 연동이 되어 있기 때문입니다. 그리고 파이썬 웹 프레임워크인 Django와 연동해서 화면에 띄어보겠습니다. https://www.elastic.co/k..
ELK는 Elasticsearch, Logstash, Kibana로 구성된 데이터 분석을 할 수 있는 오픈소스 데이터 시각화입니다각 요소가 하는 역할을 간단히 살펴보면Elasticsearch : 데이터 처리/검색엔진 => 일종의 DBLogstash : 실시간 데이터 파이프라인을 통하여 데이터 수집Kibana : 시각화 로 구성되어 있습니다. 이번 포스팅은 이 중 엘라스틱 서치를 설치하도록 하겠습니다.elasticsearch와 logstash, kibana는 각각 다른 서버에 구축할 것입니다.즉 3대의 서버에 따로따로 설치하려고 합니다. 어차피 설정에서 ip 주소등을 설정해주면 되니까요! 먼저 엘라스틱 서치를 설치해보죠.조건! java가 설치되어 있어야 합니다.https://lsjsj92.tistory.c..