목록hadoop (10)
꿈 많은 사람의 이야기
벌써 꽤 되었지만 지난 포스팅에서 도커(docker)에다가 centos7을 구축하고그 위에 하둡, 스파크, 제플린을 설치해서 배포까지 했습니다.과정은 아래 링크를 따라가시면 됩니당https://lsjsj92.tistory.com/418이거는 도커에 하둡(hadoop) 설치https://lsjsj92.tistory.com/422도커에 하둡(hadoop) 설치 후 아파치 스파크(apache spark) 설치https://lsjsj92.tistory.com/425아파치 제플린(apache zeppelin) 설치순서대로 따라가시면 1편부터 보실 수 있습니다. 이번 포스팅은현재 아파치 제플린까지 설치되어 있는 상태인데요여기에 이제 apache hive를 설치해보려고 합니다.하이브는 기존의 맵리듀스(mapreduc..
어느덧 설이 끝나고 한 주가 지났네요몸도 안좋았고 좀 정신이 없습니다 이번 포스팅은 apahce flume(아파치 플럼)과 apache kafka에 대해서 알아봅니다.빅데이터와 관련된 공부를 하게 되면 당연히 apache open source project에 대해서 많이 공부하게 되는데요대표적인게 하둡이죠.저장 하기 전에 수집 단계에서 많이 사용되는 소프트웨어가 플럼과 카프카입니다.먼저 플럼을 알아보고 그 다음 카프카(kafka)에 대해서 알아봅니다.이번 포스팅은 지난 게시글(하둡과 주키퍼, 얀 설치) 이후의 글입니다.https://lsjsj92.tistory.com/432https://lsjsj92.tistory.com/433을 참고하시면 되겠습니다.그리고 이 내용은 실무로 배우는 빅데이터 기술 책의 ..
지난 포스팅에서 클라우데라(cloudera) 환경에서 아파치 하둡을 설치했습니다. 더불어서 주키퍼(zookeeper), 얀(yarn)도 설치했죠.https://lsjsj92.tistory.com/432이제 이후의 기본적인 설정 방법입니다.아무래도 vm 환경이다 보니 높은 퍼포먼스로 진행하기 힘듭니다.저는 램이 16G인데도 각 노드 램을 4, 4, 2로 주니까 죽을라고 하네요 ㅋㅋㅋㅋㅋ 그래서 필요한 설정 등을 할 수 있습니다. 먼저 호스트에 들어가서 역할에 들어가봅니다 그러면 클러스터에서 각 노드들의 역할을 볼 수 있습니다~어떤 노드에 무엇이 설치되어 있는지 한 눈에 볼 수 있죠 그리고 클라우데라 매니저 메인으로 가서 HDFS 오른쪽의 화살표 버튼을 누르면 역할 인스턴스 추가가 보입니다.이걸 누르시면 위..
빅데이터 분석과 적재를 위한 하둡 아키텍처 설치는 다양한 방법으로 설치할 수 있습니다.뭐 그냥 일반적인 방법은 단순히 3~4대의 centos7 등을 설치해서 거기에 자바 설치하고, 하둡 설치하고하나하나 다 설치하는 방법이 있습니다.저도 예전에는 계속 이 방법으로 설치했고, 도커 환경에서도 설치를 해봤었습니다. 하지만 이 과정이 하둡, 주키퍼, 스파크, 제플린 등의 설치까진 그래도 괜찮은데플럼, 카프카, 스쿱 등의 다양한 하둡 에코시스템을 설치하다보면 설치가 굉장히 까다로워지고 복잡해집니다.그래서 이러한 과정을 좀 단순하고, 명확하게 해주면서 설치를 쉽게 해주는 방법이 있는데요그 중 하나가 클라우데라를 이용하는 방법입니다.클라우데라는 빅데이터 아키텍처 오픈 소스들을 한데 모아서 잘 조립해주기도 하고, 제품..
지난 포스팅에서 도커(docker)환경에 빅데이터 솔루션인 하둡(apache hadoop)과 스파크(apache spark)를 설치했습니다.https://lsjsj92.tistory.com/422해당 글을 참조하시면 되겠습니다. 오늘은 세번째 포스팅입니다. 제플린을 설치해보도록 하겠습니다.제플린은 스파크 개발 시 편리하게 도와주는 일종의 파이썬 주피터 노트북(jupyter notebook)과 같은 역할을 합니다.https://zeppelin.apache.org/해당 사이트에서 다운로드를 받으시면 됩니다.저는 하둡과 스파크가 설치되어 있는 centos7에서 wget으로 다운 받았습니다. 이렇게요!그리고 압축을 풀어주시면 됩니다. 먼저 동작이 잘 되는지 테스트를 해봅니다.아직 설정은 하지 않고 그냥 화면이 ..
지난 포스팅에서 도커(docker)환경 centos7에서 하둡(hadoop)을 설치했습니다. https://lsjsj92.tistory.com/418 이번 포스팅에서는 하둡을 설치한 해당 도커 컨테이너에 아파치 스파크(apache spark)를 2버전으로 설치하려고 합니다. 아파치 스파크는 하둡의 맵리듀스 단점을 보완해줍니다.실시간 데이터 처리 기능(spark streaming)도 되고, 맵 리듀스, 나아가서 머신러닝 알고리즘(spark MLlib)도 지원해줍니다. 그렇기에 하둡과 연동해서 자주 사용하죠!이번 포스팅은 이 스파크를 설치해봅니다. 그리고 현재 도커 centos7에 하둡과 스파크까지 다 설치하고 docker hub(도커 허브)에 배포해봅니다. 도커 허브에 배포하면 해당 이미지를 가지고 다른 ..
안녕하세요. 날씨가 많이 춥네요벌써 연말입니다. 모두들 2018년 마지막 마무리 잘 하시길 바라구요. 행복한 2019년을 맞이하시길 바랍니다! 이번에는 도커( docker) 환경에다가 하둡2(hadoop)와 스파크(spark)를 설치하는 과정을 포스팅 하려고 합니다.이번 포스팅은 하둡만 설치해보고 다음 포스팅에서 스파크를 설치해보려고 합니다. 도커라는 것이 정말 강력해서 이렇게 환경 설정 해놓으면 docker hub에 올려 언제든지 재사용할 수 있다는 것이 매우 좋은데요하둡을 이렇게 설치해놓으면 매우 간편합니다. 시작해봅니다. 저는 윈도우 환경에서 도커를 설치해서 진행했습니다.뭐 어느 환경이던 상관없습니다 먼저 centos 7버전을 pull합니다.docker pull centos:7을 이용하면 됩니다. ..
얼마전에 도커 기반에다가 하둡을 설치하려고 하다가 애먹은 적이 있었다.본인은 docker에 centos7을 설치하고 그 위에 hadoop(하둡)을 설치하려고 했는데 단순히 docker run -i -t centos /bin/bash를 해서 진행하니까 systemctl 명령어도 안먹히고 hostctl등 먹히지 않는 명령어가 너무 많았다.에러는 failed to get D-Bus connection: Operation not permitted였다구글링해서 찾아보니까 다른 방법으로 실행시켜야 한다고 하였다 docker run --privileged -d --name namenode centos:7 init이었는데 -d옵션이나 --name 옵션은 그리 중요한게 아니고 --priviledged와 init이 중요한..
이번 글은 centos7을 설치하고 나서 그 설치를 복사하는 방법입니다~ 하나 설치하고 또 하나 설치하고 또 설치하고 그러기엔 시간 소모가 너무 오래걸립니다 특히, 이 글은 하둡을 위한 게시글인데요 서버가 4개가 필요합니다. 1개도 설치가 시간이 꽤 걸리는데 4개를 설치하면 정말 오래걸려요 그때를 대비한 복사 방법입니다! vmware기준입니다~ 설치된 하둡 파일 탭에서 마우스 오른쪽 클릭을 하면 저렇게 나오는데요 거기서 manage -> clone을 선택합니다. 이 화면 나오면 다음을 누릅니다! 위에 것을 선택합니다. 스냅샷을 저장한게 없기 때문에요! 그리고 전 전체 복사를 했습니다. 이것도 필요에 따라서 선택이 달리지는데요 저는 전체 복사가 나을 것 같아서 전체를 선택했습니다. 가상머신 이름을 입력합니..
안녕하세요~ 이번 포스팅 내용은 윈도우에 vmware를 이용해서 centos7을 설치하는 방법을 설명하는 글입니다.이 설치 부분은 하둡을 위한 centos7 설치 부분이지만 그것 외의 용도로도 centos7을 설치할 수 있습니다 준비물은 centos7 iso 파일과, vmware가 필요합니다 iso 파일은 검색하면 쉽게 구하실 수 있습니다. vmware가 조금 문제네요. vmware는 제품 key가 필요합니다. 키가 없으신 분들은 요즘 virtual box를 많이 쓰기도 하더라고요! 어느 것이던 방법은 비슷합니다 먼저 vmware를 실행하고 가상머신 만들기를 클릭하면 아래 사진처럼 나옵니다. 여기서 아래 사진 처럼 선택합니다. 나중에 cd를 넣겠다는 겁니다 마지막에 centos7을 실행하기 전에 cd를 ..