목록스파크 (4)
꿈 많은 사람의 이야기
지난 포스팅에서 도커(docker)환경에 빅데이터 솔루션인 하둡(apache hadoop)과 스파크(apache spark)를 설치했습니다.https://lsjsj92.tistory.com/422해당 글을 참조하시면 되겠습니다. 오늘은 세번째 포스팅입니다. 제플린을 설치해보도록 하겠습니다.제플린은 스파크 개발 시 편리하게 도와주는 일종의 파이썬 주피터 노트북(jupyter notebook)과 같은 역할을 합니다.https://zeppelin.apache.org/해당 사이트에서 다운로드를 받으시면 됩니다.저는 하둡과 스파크가 설치되어 있는 centos7에서 wget으로 다운 받았습니다. 이렇게요!그리고 압축을 풀어주시면 됩니다. 먼저 동작이 잘 되는지 테스트를 해봅니다.아직 설정은 하지 않고 그냥 화면이 ..
지난 포스팅에서 도커(docker)환경 centos7에서 하둡(hadoop)을 설치했습니다. https://lsjsj92.tistory.com/418 이번 포스팅에서는 하둡을 설치한 해당 도커 컨테이너에 아파치 스파크(apache spark)를 2버전으로 설치하려고 합니다. 아파치 스파크는 하둡의 맵리듀스 단점을 보완해줍니다.실시간 데이터 처리 기능(spark streaming)도 되고, 맵 리듀스, 나아가서 머신러닝 알고리즘(spark MLlib)도 지원해줍니다. 그렇기에 하둡과 연동해서 자주 사용하죠!이번 포스팅은 이 스파크를 설치해봅니다. 그리고 현재 도커 centos7에 하둡과 스파크까지 다 설치하고 docker hub(도커 허브)에 배포해봅니다. 도커 허브에 배포하면 해당 이미지를 가지고 다른 ..
벌써 12월 31일이다.뭐 했는데 이렇게 시간이 빠르게 흘렀을까? 2018년도를 복기를 해보니까17년도에 인턴이 끝나서 18년 1월부터 백수였다.1월에는 뭐 취업 공고도 나지 않고.. 그렇기에 공부만 했던 시기그게 2~3월까지 가다가 3월부터 자소서를 쓰기 시작 대기업도 뚫고, 심지어 시험도 통과된 회사도 있었지만 지금 다니고 있는 중소기업에 취직여기를 선택한 이유는 '내가 할 수 있는 것을 배울 수 있는 곳'개인적으로 웹 개발은 하기가 싫었다. 데이터 분석과 핸들링을 할 수 있는 곳을 원했다근데 그런 곳은 대부분 3~5년 이상 개발자를 원했다. 즉, 신입을 뽑지 않았다. 당연하다. 그 만큼 어려우니까근데 이 회사는 거의 몇 안되게 신입을 뽑았다. 사실 3군데가 있었지만 여기를 선택했다. 여러 사람들이 ..
안녕하세요. 날씨가 많이 춥네요벌써 연말입니다. 모두들 2018년 마지막 마무리 잘 하시길 바라구요. 행복한 2019년을 맞이하시길 바랍니다! 이번에는 도커( docker) 환경에다가 하둡2(hadoop)와 스파크(spark)를 설치하는 과정을 포스팅 하려고 합니다.이번 포스팅은 하둡만 설치해보고 다음 포스팅에서 스파크를 설치해보려고 합니다. 도커라는 것이 정말 강력해서 이렇게 환경 설정 해놓으면 docker hub에 올려 언제든지 재사용할 수 있다는 것이 매우 좋은데요하둡을 이렇게 설치해놓으면 매우 간편합니다. 시작해봅니다. 저는 윈도우 환경에서 도커를 설치해서 진행했습니다.뭐 어느 환경이던 상관없습니다 먼저 centos 7버전을 pull합니다.docker pull centos:7을 이용하면 됩니다. ..