컴퓨터 활용/노년에 즐기는 코딩
AWS의 데이터 분석 파이프라인 전체 구조
easyfly
2025. 6. 15. 07:59
반응형
AWS의 데이터 분석 파이프라인 전체 구조
1. Ingest & Real Time Analysis (데이터 수집 및 실시간 분석)
- Kinesis Data Stream
: 실시간으로 데이터를 수집합니다. (센서, 로그 등에서 발생하는 데이터) - Kinesis Data Firehose
: 데이터를 Amazon S3로 실시간 전송하며, JSON Reference 파일 등도 함께 처리됩니다.
2. Store + Catalog + Transform (저장, 카탈로그화 및 변환)
- Amazon S3 (Raw & Reference data)
: 수집된 원시 데이터를 저장합니다. - AWS Glue Crawlers
: S3의 데이터를 자동으로 스캔하여 메타데이터를 Glue Data Catalog에 등록합니다. - AWS Glue Data Catalog
: 데이터의 스키마 정보를 저장하는 중앙 메타데이터 저장소입니다. - 변환 도구들
- AWS Glue: 스크립트를 통해 데이터를 변환 처리합니다.
- AWS Glue Studio / DataBrew / EMR: GUI 기반 또는 대규모 클러스터 분석용 데이터 처리 도구입니다.
- Amazon S3 (Processed data)
: 변환 후 데이터를 저장합니다.
3. Analyze (분석)
- Amazon Athena
: S3에 저장된 데이터를 SQL로 분석할 수 있는 서비스입니다. - Amazon Kinesis Data Analytics
: 스트리밍 데이터를 실시간으로 분석합니다. - AWS Lambda
: 트리거 기반의 서버리스 분석 및 후처리를 자동화합니다. - Amazon QuickSight
: Athena 결과를 시각화하여 사용자에게 보여줍니다.
전체 흐름 요약:
- Kinesis로 실시간 데이터 수집 → Firehose를 통해 S3 저장
- Glue Crawlers로 메타데이터 생성 → Glue/EMR로 변환
- Athena, Kinesis Analytics, Lambda 등으로 분석 → QuickSight로 시각화
이 구조는 실시간 데이터 수집 → 저장 → 정제 → 분석 → 시각화로 이어지는 전형적인 AWS 데이터 분석 파이프라인입니다. 워크숍 실습 시 이 흐름에 따라 각 서비스를 직접 체험하게 됩니다.
반응형