AWS serverless data analytics pipeline reference architecture | Amazon Web Services
개요
데이터 레이크 중심의 빅데이터 분석 파이프라인을 제안
논리적 아키텍처
Ingestion Layer (수집 계층)
- 데이터를 데이터 레이크로 가져오는 역할을 하며, 다양한 프로토콜을 통해 내외부 데이터소스에 연결할 수 있는 기능 제공
- 배치 및 스트리밍 데이터를 데이터 레이크로 가져옴.
- Batch?
Batch
는 집단, 무리 한 회분, 일괄적인 처리를 위해 함께 묶다 라는 의미가 있다.
Batch 작업
은 Data를 실시간으로 처리것이 아닌, 일괄적으로 모아서 처리하는 작업을 의미한다.
- Streaming?
- 수집한 데이터를 데이터 저장소 계층으로 가져옴
Storage Layer (스토리지 계층)
- 스토리지 계층은 방대한 양의 데이터를 저장하기 위해 내구성 있고 확장 가능하며 안전하고 비용 효율적인 구성 요소를 제공하는 역할
- 비정형 데이터와 다양한 구조 형식의 데이터셋 저장 지원
- 스토리지 계층은 다음 영역으로 분류
- Raw Zone
- 수집 계층의 구성요소가 데이터를 저장하는 스토리지 영역
- 정보원에서 수집된 그대로의 원시 데이터가 저장
- Cleaned Zone
- 예비 품질 검사 후 Raw Zone의 데이터는 영구 저장을 위한 정리된 영역으로 이동
- 모든 소스의 모든 데이터를 Cleaned Zone에 영구적으로 저장하면 다운스트림 저장 영역에서 오류가 발생하거나 데이터가 손실되는 경우 다운스트림 데이터 처리를 '재생'할 수 있습니다.
- 일반적으로 데이터 엔지니어링 및 데이터 사이언스 페르소나는 이 영역에 저장된 데이터와 상호작용
- Curated Zone
- 가장 사용 가능한 상태, 조직 표준 및 데이터 모델을 준수하는 데이터가 호스팅
- Curated Zone의 데이터셋은 일반적으로 소비계층에서 성능과 비용 효율적인 엑세스를 지원하는 형식으로 파티션되고, 카탈로그화 되고 저장됨.
Cataloging And Search Layer (목록화 및 검색 계층)
- 목록화 및 검색 계층은 스토리지 계층에서 호스팅되는 데이터세트에 대한 비즈니스 및 기술 메타데이터를 저장하는 역할
- 레이크에서 스키마 및 데이터 세트 정보의 세분화된 분할을 추적하는 기능 제공
- 메타데이터 변경사항을 추적하기 위해 버전 추적 메커니즘 지원
- 데이터 레이크의 데이터 세트 수 증가에 따라 검색 기능을 제공하여 데이터 레이크 데이터셋을 검색 가능하게 함