[2020/Books:05] '엔터프라이즈 데이터 플랫폼 구축' 리뷰
‘엔터프라이즈 데이터 플랫폼 구축[↗NW] ’은 하둡을 기반으로 데이터 플랫폼을 구축하고 운영하는 데이터 엔지니어를 위한 하둡 데이터 플랫폼 실무서입니다. 엔터프라이즈 데이터 플랫폼 구축은 하둡 에코시스템의 특정 기술 사용법을 단편적으로 소개하는 책이 아닙니다. 이 책은 하둡 데이터 플랫폼 전체를 올바르게 구축하고 체계적으로 관리하는 방법을 소개합니다. 하둡 클러스터 확장성을 보장하기 위해서 어떤 네트워크 구성을 적용해야 하고, 하둡 클러스터 성능 개선을 위한 운영체제 설정과 하드웨어 구성에 관해서 설명합니다. 또한 하둡 클러스터 안전성을 높이는 보안 구성과 소프트웨어 설정을 다룹니다. 엔터프라이즈 데이터 플랫폼 구축은 데이터 플랫폼 구축과 운영을 위한 하둡 기술과 인프라스터럭처(하드웨어, 네트워크, 보안, 운영 조직) 전체를 주제로 합니다.
오픈소스 데이터 플랫폼 그리고 현실
하둡 에코시스템을 조사하다 보면 하둡으로 못할 것이 없어 보입니다. Yahoo가 4,500 노드 하둡 클러스터를 구축했다는 위키피디아 문서, 하둡으로 데이터 레이클를 구축했다는 사례 PPT 문서와 유튜브 세미나 발표 동영상을 보고 있으면 하둡에 대한 신뢰도는 점점 더 높아집니다. 하둡 데이터 플랫폼은 구축 사례도 많고 기술 저변도 상당히 넓으며 안정된 것 처럼 보입니다. 그러나 하둡 데이터 플랫폼을 우리 회사에 직접 구축하려고 하면 막막해 집니다. 하둡 데이터 플랫폼을 구축하기 전에 무엇을 고려해야 하는지 파악하고 준비하는 것 자체가 연구 과제입니다. 하둡 데이터 플랫폼 구축에 필요한 주요 고려 사항을 확인하고 준비했다고해도 이 결정이 올바른 것인지, 고려 사항 중에 빠진 것은 없는지 확신이 서질 않습니다. 오픈 소스 기술을 사용하다 보면 검증된 개발자/엔지니어의 경험과 노하우에 대한 목마름이 생깁니다.
Cloudera에서 하둡 엔지니어 및 개발자로 수년간 활동해온 저자는 그동안의 경험과 CDH를 관리하면서 정립한 노하우를 정리하여 ‘엔터프라이즈 데이터 플랫폼 구축[↗NW] ’를 출간했습니다. 이 책을 통해서 저자가 Cloudera에서 다년간 축적한 하둡 데이터 플랫폼 구축과 운영 경험을 확인할 수 있습니다.
“엔터프라이즈 데이터 플랫폼 구축”의 구성
‘엔터프라이즈 데이터 플랫폼 구축[↗NW] ’은 다음과 같이 3부로 구성됩니다.
- 하둡 클러스터 구축: 인프라스터럭처 구성
- 하둡 클러스터 운영: 플랫폼 운영
- On-Prem & Cloud 하둡
1. 하둡 클러스터 구축: 인프라스터럭처 구성
하둡 데이터 플랫폼 담당자의 어려움은 관리해야 기술 범위가 굉장히 넓다는 것입니다. 하둡 클러스터를 구성하고 운영할 때 다음과 같은 것을 고려하고 관리해야 합니다.
- 하둡 에코시스템 오픈소스 통합
- 하드웨어 인프라스트럭처(Server, CPU, Memory)
- 데이터 저장 스토리지 구성
- 네트워크 구성
- 인프라&소프트웨어 관리 체계
하둡 데이터 플랫폼 담당자는 오픈소스 개발자, 데이터 엔지니어, 네트워크 담당자, 운영체제 담당자와 계속 협업해야 합니다. 성능 개선을 위해서는 우리 환경에 맞는 운영 체제 커널 설정을 관리해야 하고, 다수의 서버 운영체제를 관리해야 합니다. 클러스터를 연결하는 네트워크 구성에 대해서도 알고 있어야 합니다. 하둡을 연결하는 네트워크 스위치를 어떻게 관리할지 결정해야 합니다. 하둡 데이터 플랫폼 담당자가 관여해야 하는 개발, 운영, 인프라 관리, 네트워크, 조직 및 관리 체계는 하나하나가 독립적인 전문 분야입니다. 따라서 하둡 데이터 플랫폼 담당자는 각 분야의 전문 담당자와 함께 기술 이슈를 지속해서 소통하고 공유해야 합니다.
<1부. 인프라스럭처>에서는 인프라스트럭처 관점으로 개발, 운영, 하드웨어(서버), 네트워크, 조직 및 클러스터 관리 체계에 대해 하둡 데이터 플랫폼 담당자가 무엇을 알아야 하고 어떤 것을 고려하고 관리하는지를 소개합니다. <1부. 인프라스럭처>에서는 다음과 같은 주제가 잘 정리돼 있습니다.
- 하둡 클러스터 스토리지 옵션
- 하둡 클러스터 서버, 랙, 스위치 구성
- 하둡 클러스터를 위한 네트워크 구성
2. 하둡 클러스터 운영: 플랫폼 운영
<2부, 플랫폼>에서는 하둡 클러스터를 체계적으로 관리하기 위에서 플랫폼 담당자가 알아야 하는 사항을 다룹니다.
- 클러스터 프로비저닝
- Hadoop Echo 컴포넌트 구성 및 통합
- 운영체제 구성
- 플랫폼 검증
- 고가용성 구성
- 데이터 안전성 구성
- 데이터 백업과 복구 체계
- 보안 구성
- 플랫폼 계정 및 인증서 관리
- Kerbros 구성
3. On-Prem&Cloud 하둡
최근에 데이터 플랫폼을 계획하거나 운영할 때 On-Prem과 Cloud의 관계를 고려해야 합니다. 요즘에는 기업은 자체 데이터센터에 On-Prem으로 구축한 데이터 플랫폼과 클라우드에 구축한 데이터 플랫폼을 동시에 운영하는 경우가 많습니다.
On-Prem에 구축한 하둡 클러스터는 기업이 전체 데이터를 통합하는 데이터 레이크가 되기도 하고, 여러 소스의 데이터를 모으고 전처리(비식별 등)하여 클라우드에 데이터를 이관하는 데이터 Edge가 되기도 합니다. 때로는 클라우드 데이터 플랫폼에 데이터를 모으고 전처리하여 분석 대상 데이터를 만든 다음에 이 데이터를 On-Prem 데이터 플랫폼에 이관하는 형태로 On-Prem과 Cloud 데이터 플랫폼을 하이브리드로 구성하기도 합니다.
클라우드에서 데이터 플랫폼을 구축할 때도 하둡 기술을 기반으로 데이터 플랫폼을 구성하기도 하고, 클라우드 네이티브 방식으로 데이터 플랫폼을 구성할 수도 있습니다. 클라우드에서 하둡 기술을 중심으로 데이터를 관리할 것인지 아니면 클라우드 네이티브 기술로 데이터를 관리할 것인지를 결정해야 합니다.
<3부, 클라우드 기반 하둡>에서는 Public Cloud와 Private Cloud에서 하둡 클러스터를 구축하고 운영하는 내용을 다룹니다. 가상화 환경에서 하둡을 구성할 때 고려사항과 클라우드 특성 및 구성 방법을 소개합니다. 특히 Private Cloud 환경인 OpenStack, OpenShift, VMWare, EMC 아이슬론에서 하둡 클러스터를 구성하는 방법과 특이 사항을 정리합니다. 마지막으로 AWS, Azure, GCP과 같은 Public Cloud에서 제공하는 하둡 서비스를 소개하고, 각 서비스별 특성, 사용 방법 및 고려사항을 다룹니다.
도서 후기
‘엔터프라이즈 데이터 플랫폼 구축[↗NW] ’은 단수하게 하둡 에코시스템의 특정 기술을 다루는 책이 아닙니다. 이 책이 다루는 핵심 주제는 하둡 데이터 플랫폼 구축과 운영입니다. 하둡 데이터 플랫폼 구축과 운영 단계에서 실무 담당자가 알아야 하는 인프라와 소프트웨어 지식과 고려사항을 정리합니다. 독자는 이 책을 통해서 하둡 데이터 플랫폼을 체계적으로 구축/관리하는 실무적인 정보를 확인할 수 있습니다.
개인적으로 이 책을 통해서 하둡 클러스터를 중심으로 네트워크, 운영체제에 대해 다시 한번 정리할 수 있었습니다. 특히 하둡 클러스터를 위한 하드웨어(서버&랙)과 네트워크 구성 및 보안 구성에 대한 부분이 인상적이었습니다.
‘엔터프라이즈 데이터 플랫폼 구축[↗NW] ’은 하둡 클러스터 도입을 계획하시는 분이나 하둡 데이터 플랫폼을 체계적으로 이해하고 운영하고자 하시는 데이터 엔지니어분들에게 추천하는 책입니다.