목록빅데이터 (18)
꿈 많은 사람의 이야기
벌써 꽤 되었지만 지난 포스팅에서 도커(docker)에다가 centos7을 구축하고그 위에 하둡, 스파크, 제플린을 설치해서 배포까지 했습니다.과정은 아래 링크를 따라가시면 됩니당https://lsjsj92.tistory.com/418이거는 도커에 하둡(hadoop) 설치https://lsjsj92.tistory.com/422도커에 하둡(hadoop) 설치 후 아파치 스파크(apache spark) 설치https://lsjsj92.tistory.com/425아파치 제플린(apache zeppelin) 설치순서대로 따라가시면 1편부터 보실 수 있습니다. 이번 포스팅은현재 아파치 제플린까지 설치되어 있는 상태인데요여기에 이제 apache hive를 설치해보려고 합니다.하이브는 기존의 맵리듀스(mapreduc..
어느덧 설이 끝나고 한 주가 지났네요몸도 안좋았고 좀 정신이 없습니다 이번 포스팅은 apahce flume(아파치 플럼)과 apache kafka에 대해서 알아봅니다.빅데이터와 관련된 공부를 하게 되면 당연히 apache open source project에 대해서 많이 공부하게 되는데요대표적인게 하둡이죠.저장 하기 전에 수집 단계에서 많이 사용되는 소프트웨어가 플럼과 카프카입니다.먼저 플럼을 알아보고 그 다음 카프카(kafka)에 대해서 알아봅니다.이번 포스팅은 지난 게시글(하둡과 주키퍼, 얀 설치) 이후의 글입니다.https://lsjsj92.tistory.com/432https://lsjsj92.tistory.com/433을 참고하시면 되겠습니다.그리고 이 내용은 실무로 배우는 빅데이터 기술 책의 ..
지난 포스팅에서 클라우데라(cloudera) 환경에서 아파치 하둡을 설치했습니다. 더불어서 주키퍼(zookeeper), 얀(yarn)도 설치했죠.https://lsjsj92.tistory.com/432이제 이후의 기본적인 설정 방법입니다.아무래도 vm 환경이다 보니 높은 퍼포먼스로 진행하기 힘듭니다.저는 램이 16G인데도 각 노드 램을 4, 4, 2로 주니까 죽을라고 하네요 ㅋㅋㅋㅋㅋ 그래서 필요한 설정 등을 할 수 있습니다. 먼저 호스트에 들어가서 역할에 들어가봅니다 그러면 클러스터에서 각 노드들의 역할을 볼 수 있습니다~어떤 노드에 무엇이 설치되어 있는지 한 눈에 볼 수 있죠 그리고 클라우데라 매니저 메인으로 가서 HDFS 오른쪽의 화살표 버튼을 누르면 역할 인스턴스 추가가 보입니다.이걸 누르시면 위..
빅데이터 분석과 적재를 위한 하둡 아키텍처 설치는 다양한 방법으로 설치할 수 있습니다.뭐 그냥 일반적인 방법은 단순히 3~4대의 centos7 등을 설치해서 거기에 자바 설치하고, 하둡 설치하고하나하나 다 설치하는 방법이 있습니다.저도 예전에는 계속 이 방법으로 설치했고, 도커 환경에서도 설치를 해봤었습니다. 하지만 이 과정이 하둡, 주키퍼, 스파크, 제플린 등의 설치까진 그래도 괜찮은데플럼, 카프카, 스쿱 등의 다양한 하둡 에코시스템을 설치하다보면 설치가 굉장히 까다로워지고 복잡해집니다.그래서 이러한 과정을 좀 단순하고, 명확하게 해주면서 설치를 쉽게 해주는 방법이 있는데요그 중 하나가 클라우데라를 이용하는 방법입니다.클라우데라는 빅데이터 아키텍처 오픈 소스들을 한데 모아서 잘 조립해주기도 하고, 제품..
지난 포스팅에서 도커(docker)환경에 빅데이터 솔루션인 하둡(apache hadoop)과 스파크(apache spark)를 설치했습니다.https://lsjsj92.tistory.com/422해당 글을 참조하시면 되겠습니다. 오늘은 세번째 포스팅입니다. 제플린을 설치해보도록 하겠습니다.제플린은 스파크 개발 시 편리하게 도와주는 일종의 파이썬 주피터 노트북(jupyter notebook)과 같은 역할을 합니다.https://zeppelin.apache.org/해당 사이트에서 다운로드를 받으시면 됩니다.저는 하둡과 스파크가 설치되어 있는 centos7에서 wget으로 다운 받았습니다. 이렇게요!그리고 압축을 풀어주시면 됩니다. 먼저 동작이 잘 되는지 테스트를 해봅니다.아직 설정은 하지 않고 그냥 화면이 ..
벌써 12월 31일이다.뭐 했는데 이렇게 시간이 빠르게 흘렀을까? 2018년도를 복기를 해보니까17년도에 인턴이 끝나서 18년 1월부터 백수였다.1월에는 뭐 취업 공고도 나지 않고.. 그렇기에 공부만 했던 시기그게 2~3월까지 가다가 3월부터 자소서를 쓰기 시작 대기업도 뚫고, 심지어 시험도 통과된 회사도 있었지만 지금 다니고 있는 중소기업에 취직여기를 선택한 이유는 '내가 할 수 있는 것을 배울 수 있는 곳'개인적으로 웹 개발은 하기가 싫었다. 데이터 분석과 핸들링을 할 수 있는 곳을 원했다근데 그런 곳은 대부분 3~5년 이상 개발자를 원했다. 즉, 신입을 뽑지 않았다. 당연하다. 그 만큼 어려우니까근데 이 회사는 거의 몇 안되게 신입을 뽑았다. 사실 3군데가 있었지만 여기를 선택했다. 여러 사람들이 ..
안녕하세요. 날씨가 많이 춥네요벌써 연말입니다. 모두들 2018년 마지막 마무리 잘 하시길 바라구요. 행복한 2019년을 맞이하시길 바랍니다! 이번에는 도커( docker) 환경에다가 하둡2(hadoop)와 스파크(spark)를 설치하는 과정을 포스팅 하려고 합니다.이번 포스팅은 하둡만 설치해보고 다음 포스팅에서 스파크를 설치해보려고 합니다. 도커라는 것이 정말 강력해서 이렇게 환경 설정 해놓으면 docker hub에 올려 언제든지 재사용할 수 있다는 것이 매우 좋은데요하둡을 이렇게 설치해놓으면 매우 간편합니다. 시작해봅니다. 저는 윈도우 환경에서 도커를 설치해서 진행했습니다.뭐 어느 환경이던 상관없습니다 먼저 centos 7버전을 pull합니다.docker pull centos:7을 이용하면 됩니다. ..
안녕하세요. 날씨가 많이 춥네요.오늘은 딥러닝 영상 기반 강의인 스탠포드(stanford) 대학교 cs231n 2017년 강의 9번쨰 강의 정리입니다. 지난 시간에 7강까지 하고 8강은 넘어갔었는데요. 8강은 여러 딥러닝 software들을 소개해줍니다. 혹 궁금하신 분들이 있으시면 봐보세요! 이번 9강은 여태 나왔었던 훌륭한 CNN 모델들을 소개해줍니다. AlexNet(알렉스넷), googLeNet(구글넷), VGG Net, ResNet(레즈넷) 등을 소개하는 강의입니다. 이런 모델들은 imagenet과 localization 대회에서 우수한 성적을 거둔 모델입니다. LeNet은 가장 초창기 CNN 모델이죠.그리고 연구가 좀 더 되서 2012년이 되었습니다.그 전에는 사람이 수작업을 하거나 그랬었는데요..
이번에는 도커의 가장 강력한 기능중 하나인 docker compose에 대해서 알아보고 이걸 이용해서 빅데이터 분석 도구로 사용되고 있는 Elasticsearch-Logstash-Kibana(ELK)를 설치해보겠습니다. 먼저 도커 컴포즈(docker compose)에 대해서 알아봐야겠죠?복수개의 컨테이너가 하나의 애플리케이션으로 구동되는 경우 컨테이너 조합이 복잡해지기 쉽습니다. 예를 들어서 웹 애플리케이션을 하나 구축하려고 하면 web 서버 컨테이너 + WAS 서버 컨테이너 + DB 컨테이너 등을 생성해야하죠.근데 이걸 하나하나 run 시킨다?? 이건 너무 불편하죠.그래서 docker compose가 나옵니다. 도커 컴포즈는 여러개의 컨테이너를 개별 서비스로 인지하게 해서 컨테이너 묶음으로 관리하게 해..
지난 포스팅에서 빅데이터 도구인 ELK 스택 설치 부분에서 엘라스틱 서치 설치를 진행했고 키바나(kibana)를 설치해서 엘라스틱 서치와 연동했습니다.https://lsjsj92.tistory.com/398https://lsjsj92.tistory.com/396 을 참고하시면 되겠습니다.396이 엘라스틱 서치, 398은 키바나설치 및 엘라스틱 연동입니다. 이번 포스팅에서는 로그스태시(logstash)를 설치하고 엘라스틱 서치와 연동하겠습니다. 엘라스틱 서치와 연동하면 자동으로 키바나와 연동이 됩니다. 왜냐하면 이미 kibana랑 elasticsearch와 연동이 되어 있기 때문입니다. 그리고 파이썬 웹 프레임워크인 Django와 연동해서 화면에 띄어보겠습니다. https://www.elastic.co/k..