목록빅데이터 (20)
꿈 많은 사람의 이야기
얼마전 도커를 이용하다가 아래와 같은 에러를 발견했습니다. In the default daemon configuration on Windows, the docker client must be run elevated to connect. This error may also indicate that the docker daemon is not running. Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers) 라는 에러였습니다. 이 에러는 도커 이미지를 다운..
벌써 꽤 되었지만 지난 포스팅에서 도커(docker)에다가 centos7을 구축하고그 위에 하둡, 스파크, 제플린을 설치해서 배포까지 했습니다.과정은 아래 링크를 따라가시면 됩니당https://lsjsj92.tistory.com/418이거는 도커에 하둡(hadoop) 설치https://lsjsj92.tistory.com/422도커에 하둡(hadoop) 설치 후 아파치 스파크(apache spark) 설치https://lsjsj92.tistory.com/425아파치 제플린(apache zeppelin) 설치순서대로 따라가시면 1편부터 보실 수 있습니다. 이번 포스팅은현재 아파치 제플린까지 설치되어 있는 상태인데요여기에 이제 apache hive를 설치해보려고 합니다.하이브는 기존의 맵리듀스(mapreduc..
어느덧 설이 끝나고 한 주가 지났네요몸도 안좋았고 좀 정신이 없습니다 이번 포스팅은 apahce flume(아파치 플럼)과 apache kafka에 대해서 알아봅니다.빅데이터와 관련된 공부를 하게 되면 당연히 apache open source project에 대해서 많이 공부하게 되는데요대표적인게 하둡이죠.저장 하기 전에 수집 단계에서 많이 사용되는 소프트웨어가 플럼과 카프카입니다.먼저 플럼을 알아보고 그 다음 카프카(kafka)에 대해서 알아봅니다.이번 포스팅은 지난 게시글(하둡과 주키퍼, 얀 설치) 이후의 글입니다.https://lsjsj92.tistory.com/432https://lsjsj92.tistory.com/433을 참고하시면 되겠습니다.그리고 이 내용은 실무로 배우는 빅데이터 기술 책의 ..
지난 포스팅에서 클라우데라(cloudera) 환경에서 아파치 하둡을 설치했습니다. 더불어서 주키퍼(zookeeper), 얀(yarn)도 설치했죠.https://lsjsj92.tistory.com/432이제 이후의 기본적인 설정 방법입니다.아무래도 vm 환경이다 보니 높은 퍼포먼스로 진행하기 힘듭니다.저는 램이 16G인데도 각 노드 램을 4, 4, 2로 주니까 죽을라고 하네요 ㅋㅋㅋㅋㅋ 그래서 필요한 설정 등을 할 수 있습니다. 먼저 호스트에 들어가서 역할에 들어가봅니다 그러면 클러스터에서 각 노드들의 역할을 볼 수 있습니다~어떤 노드에 무엇이 설치되어 있는지 한 눈에 볼 수 있죠 그리고 클라우데라 매니저 메인으로 가서 HDFS 오른쪽의 화살표 버튼을 누르면 역할 인스턴스 추가가 보입니다.이걸 누르시면 위..
빅데이터 분석과 적재를 위한 하둡 아키텍처 설치는 다양한 방법으로 설치할 수 있습니다.뭐 그냥 일반적인 방법은 단순히 3~4대의 centos7 등을 설치해서 거기에 자바 설치하고, 하둡 설치하고하나하나 다 설치하는 방법이 있습니다.저도 예전에는 계속 이 방법으로 설치했고, 도커 환경에서도 설치를 해봤었습니다. 하지만 이 과정이 하둡, 주키퍼, 스파크, 제플린 등의 설치까진 그래도 괜찮은데플럼, 카프카, 스쿱 등의 다양한 하둡 에코시스템을 설치하다보면 설치가 굉장히 까다로워지고 복잡해집니다.그래서 이러한 과정을 좀 단순하고, 명확하게 해주면서 설치를 쉽게 해주는 방법이 있는데요그 중 하나가 클라우데라를 이용하는 방법입니다.클라우데라는 빅데이터 아키텍처 오픈 소스들을 한데 모아서 잘 조립해주기도 하고, 제품..
지난 포스팅에서 도커(docker)환경에 빅데이터 솔루션인 하둡(apache hadoop)과 스파크(apache spark)를 설치했습니다.https://lsjsj92.tistory.com/422해당 글을 참조하시면 되겠습니다. 오늘은 세번째 포스팅입니다. 제플린을 설치해보도록 하겠습니다.제플린은 스파크 개발 시 편리하게 도와주는 일종의 파이썬 주피터 노트북(jupyter notebook)과 같은 역할을 합니다.https://zeppelin.apache.org/해당 사이트에서 다운로드를 받으시면 됩니다.저는 하둡과 스파크가 설치되어 있는 centos7에서 wget으로 다운 받았습니다. 이렇게요!그리고 압축을 풀어주시면 됩니다. 먼저 동작이 잘 되는지 테스트를 해봅니다.아직 설정은 하지 않고 그냥 화면이 ..
윈도우에서 도커를 쓰면 정말 에러 해결하기가 힘들다.특히 도커 툴 박스는 더욱이 그런 것 같다. 이게 virtual box 위에서 동작하다보니까 더 까다롭다.얼마전 도커를 사용하다가 계속 컨테이너가 1개 뿐이 안올라가고Error response from daemon: cgroups: cannot find cgroup mount destination: unknow 라는 에러가 계속 나왔다.그래서 컨테이너 1개만 실행해도 저 에러가 계속 나와서 여간 까다로운 것이 아니었다. 구글링을 해도 안나오고.. 결국 찾다 찾다 겨우 찾아서 저 도커 에러에 대해 포스팅을 남긴다. Error response from daemon: cgroups: cannot find cgroup mount destination: unkn..
윈도우에서 도커를 사용하기가 쉽지 않다.정말 많은 에러와 이상한 상황에 직면하게 된다.(최근에는 컴퓨터를 재부팅했더니 이미지와 컨테이너가 다 사라졌다..... 하아)윈도우에서 도커 툴 툴박스(docker tool box)나 docker for windows를 쓰게 되는데 본인은 pc 2대에서 저 2개를 각각 사용한다. 그 중 도커 툴 박스에서 나온 에러에 대해서 말하고자 한다. “This is computer is running Hyper-V. VirtualBox won’t boot a 64bits VM when Hyper-V is activated. Either use Hyper-V as a driver, or disable the Hyper-V hypervisor. (…)” 이런 에러였다. hyper..
지난 포스팅에서 도커(docker)환경 centos7에서 하둡(hadoop)을 설치했습니다. https://lsjsj92.tistory.com/418 이번 포스팅에서는 하둡을 설치한 해당 도커 컨테이너에 아파치 스파크(apache spark)를 2버전으로 설치하려고 합니다. 아파치 스파크는 하둡의 맵리듀스 단점을 보완해줍니다.실시간 데이터 처리 기능(spark streaming)도 되고, 맵 리듀스, 나아가서 머신러닝 알고리즘(spark MLlib)도 지원해줍니다. 그렇기에 하둡과 연동해서 자주 사용하죠!이번 포스팅은 이 스파크를 설치해봅니다. 그리고 현재 도커 centos7에 하둡과 스파크까지 다 설치하고 docker hub(도커 허브)에 배포해봅니다. 도커 허브에 배포하면 해당 이미지를 가지고 다른 ..
안녕하세요. 날씨가 많이 춥네요벌써 연말입니다. 모두들 2018년 마지막 마무리 잘 하시길 바라구요. 행복한 2019년을 맞이하시길 바랍니다! 이번에는 도커( docker) 환경에다가 하둡2(hadoop)와 스파크(spark)를 설치하는 과정을 포스팅 하려고 합니다.이번 포스팅은 하둡만 설치해보고 다음 포스팅에서 스파크를 설치해보려고 합니다. 도커라는 것이 정말 강력해서 이렇게 환경 설정 해놓으면 docker hub에 올려 언제든지 재사용할 수 있다는 것이 매우 좋은데요하둡을 이렇게 설치해놓으면 매우 간편합니다. 시작해봅니다. 저는 윈도우 환경에서 도커를 설치해서 진행했습니다.뭐 어느 환경이던 상관없습니다 먼저 centos 7버전을 pull합니다.docker pull centos:7을 이용하면 됩니다. ..