세로형
Recent Posts
Recent Comments
Link
04-24 00:01
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
관리 메뉴

꿈 많은 사람의 이야기

virtual box centos6.7 환경에서 클라우데라 매니저(cloudera manager)로 하둡 설치하기 본문

빅데이터

virtual box centos6.7 환경에서 클라우데라 매니저(cloudera manager)로 하둡 설치하기

이수진의 블로그 2019. 1. 28. 21:27

빅데이터 분석과 적재를 위한 하둡 아키텍처 설치는 다양한 방법으로 설치할 수 있습니다.

뭐 그냥 일반적인 방법은 단순히 3~4대의 centos7 등을 설치해서 거기에 자바 설치하고, 하둡 설치하고

하나하나 다 설치하는 방법이 있습니다.

저도 예전에는 계속 이 방법으로 설치했고, 도커 환경에서도 설치를 해봤었습니다.


하지만 이 과정이 하둡, 주키퍼, 스파크, 제플린 등의 설치까진 그래도 괜찮은데

플럼, 카프카, 스쿱 등의 다양한 하둡 에코시스템을 설치하다보면 설치가 굉장히 까다로워지고 복잡해집니다.

그래서 이러한 과정을 좀 단순하고, 명확하게 해주면서 설치를 쉽게 해주는 방법이 있는데요

그 중 하나가 클라우데라를 이용하는 방법입니다.

클라우데라는 빅데이터 아키텍처 오픈 소스들을 한데 모아서 잘 조립해주기도 하고, 제품으로 판매하기도 합니다.

이번 포스팅은 무료로 단순히 하둡을 설치하는 과정을 기록해보려고 합니다.

그리고 나아가 플럼, 카프카, 스파크, 하이브 등의 하둡 에코 시스템도 설치해봅니다.


오늘은 먼저 하둡을 설치합니다.


oracle virtual box에서 3대의 centos을 가지고 진행합니다.

버전은 6.7로 진행합니다.


이 과정은 실무로 배우는 빅데이터 기술 이라는 책과, 모두의 연구소 스터디에서 진행한 내용입니다.


virtual box에 centos를 설치하는 과정은 생략합니다.

6 버전을 설치하시면 되고 총 3대를 설치하시면 됩니다.

설치 과정은 좋은 글들이 많기 때문에 생략합니다(글이 너무 길어져서요.. 이것만 해도 사진이 거의 100장이네요..)



server01의 ip는 위와 같습니다



hostname도 위와 같이 설정했습니다.



자 이제 cloudera manager를 설치합니다. wget으로 위의 주소를 통해서 클라우데라 매니저.repo를 가져옵니다.



이후 vi cloudera-manager.repo를 열어서



baseurl을 수정해줍니다. 



이후 클라우데라 매니저를 /etc/yum.repos.d/ 디렉터리에 옮겨줍니다



다음으로 yum install oracle-j2sdk1.7을 통해 자바를 설치합니다.



다음으로는 yum install cloudera-manager-daemons cloudera-manager-server를 설치해줍니다.

이렇게 클라우데라 서버와, 매니저 데몬을 설치할 수 있습니다!



그 다음 db와 관련된 클라우데라를 설치해주고



db 서버를 실행시켜줍니다.



그 다음 service cloudera-scm-server start를 통해 클라우데라를 실행시켜줍니다!



자, 이제 local에서 virtual box의 웹 화면에 접근할 수 있도록 제 개인 pc의 hosts 파일을 수정해줍니다.

이건 관리자 권한으로 진행되어야 하며, 만약 진행 시 알약, v3 등의 백신 프로그램이 막을 수도 있습니다.

잠깐 꺼두시고 진행하시면 됩니다



그리고 여기에 virtual box centos6.7 애들의 ip와 hostname을 작성해줍니다.

그러면 아래와 같이!



이렇게 접근할 수 있습니다

사용자 이름와 암호는 admin / admin 입니다

이제 본격적인 클라우데라 설치를 진행해보죠




동의 해주고 넘어갑니다!



기본적인 하둡 에코 시스템을 사용하는데 있어서 cloudera express를 사용해도 무방합니다.

하지만 이왕 enterprise edition 체험판이 있으니 이걸로 실행합니다.

기간이 지나면 알아서 cloudera express로 전환됩니다.




계속!



여기에서 hostname을 각각 쳐줍니다.

server01 부터 server03까지 모든 노드를 검색해줍니다



그러면 이렇게 나오는데요

확인하고 넘어갑니다~



다음 화면에서 카프카(kafka)를 클릭해주고 계속!



oracle java se development kit (jdk) 설치 클릭 하고 계속!



단일 사용자 모드는 체크하지 않고! 넘어가줍니다.



그리고 암호를 각자 입력해주시고 계속!



이렇게 하면 설치가 진행됩니다.

이 설치는 네트워크 상태가 중요합니다. 네트워크 상태가 불안정한 장소이면 설치가 실패할 수도 있습니다.

실패할 경우 다시 시도를 하시면 됩니다~



자 설치가 완료되었네요



계속을 누르면 추가적인 설치를 진행합니다



정확성 검사를 하고요~



완료를 해줍니다~



자. 이제 클러스터 설정을 해주는데요.

여기서 뭐 하둡을 설치할꺼냐 이런 것들을 물어봅니다.

사용자 지정 서비스를 누르고



먼저 간단하게 hdfs와 얀(yarn), 주키퍼(zookeeper)를 선택합니다.



선택!



그리고 클러스터 설정을 진행하는데요. 

실무로 배우는 빅데이터 책에서는 위와 같이 셋팅을 진행했습니다.

저는 해당 책을 따라 했기에 위 처럼 진행했습니다.



마찬가지 부가적인 셋팅 환경입니다. 

저대로 진행하시면 됩니다.

그냥 보면 주키퍼는 server02에 서버를 두고, yarn은 resourcemanager는 server01, jobhistory server, nodemanager 서버도 server 01로 두었습니다.



다음은 데이터베이스 설정인데요.

mysql 등의 방법은 안보이네요. 일단은 위 처럼 테스트 연결 해보고 successful이 뜨면 됩니다.




클러스터 설정으로 변경 내용 검토가 있는데요. 일단은 그대로 두고 패스!



그럼 설치가 진행됩니다.



이렇게 쭉쭉 진행되면 계속!



완료!!



위와 같은 화면이 나오면 기본적인 설치 및 설정은 끝이 납니다.

왼쪽 빨간색이 뜨는 이유는 메모리등의 자원 부족으로 인한... 그런 것이구요

다음 포스팅에서 부가적인 설정을 진행합니다



반응형
그리드형
Comments