Data Lake?
다양한 원시 데이터를 포함하여 구조화 데이터, 반구조화 데이터, 비구조화 데이터를 대규모로 저장하는 중앙 집중형 저장소!
Data Lake의 특징
- 원시 데이터 저장 : 정형 데이터(SQL 데이터베이스, CSV 파일 등)와 비정형 데이터(이미지, 텍스트, 로그 등)의 원래 형태를 유지한 채 저장 가능!
- 유연한 스키마 : 데이터 저장 시 스키마 정의가 필요하지 않고, 데이터 분석이나 처리 시에 필요에 따라 스키마를 적용!
- 확장성 : 대용량 데이터를 비용 효율적으로 저장할 수 있는 Scalable 저장소(보통 클라우드 스토리지)를 사용하여, 스토리지 용량을 자유롭게 확장 가능!
- 다양한 데이터 분석 지원 : BI, 빅데이터 분석, 머신러닝 등 다양한 분석 작업 지원!
데이터 웨어하우스 vs 데이터 레이크
- 구조
- 데이터 웨어하우스 : 정형화된 구조
- 데이터 레이크 : 데이터가 정제되지 않은 다양한 형태와 구조
- 유연성
- 데이터 웨어하우스 : 저장 전에 스키마를 미리 정의
- 데이터 레이크 : 원시 데이터를 그대로 저장하고 작업 필요에 따라 스키마를 적용
- 사용 목적
- 데이터 웨어하우스 : 비즈니스 의사결정에 필요한 정형화된 데이터를 효율적으로 제공하는 것이 목적!
- 데이터 레이크 : 다양한 형태의 데이터를 저장하여 머신러닝, 데이터 마이닝 등 다양한 분석 작업에 활용하는 것이 목적!
'데이터' 카테고리의 다른 글
[데이터] Primary Key Uniqueness? (0) | 2024.11.11 |
---|---|
[데이터] Superset? (0) | 2024.10.31 |
[데이터] Snowflake? (1) | 2024.10.31 |
[데이터] 데이터 웨어하우스? (0) | 2024.10.29 |
[SQL] SQL 첫 걸음 (0) | 2021.01.28 |