[Spark] 1. Spark?

데이터/Spark

김줘 2024. 11. 28. 20:51

Spark?

빠른 데이터 처리
- Spark는 데이터를 메모리에 유지하며 처리하여 디스크 I/O 작업 감소
- 반복적인 작업에 뛰어난 성능
다양한 데이터 소스 지원
- HDFS(Hadoop Distributed File System)
- Amazon S3, Azure Storage
- NoSQL DB(Cassandra, HBase 등)
- SQL DB와 통합 가능
다중 언어 지원
- Python(PySpark), Java, Scala, R, SQL 등 다양한 프로그래밍 언어로 작업 가능
확장성
- 수백 ~ 수천 대의 클러스터 노드를 확장하여 대규모 데이터를 병렬로 처리
다양한 라이브러리
- Spark SQL : 구조화된 데이터 분석
- Spark Streaming : 실시간 데이터 스트리밍 처리
- Spark ML(MLlib) : 머신 러닝
- Spark GraphX : 그래프 데이터 처리
- Spark Core : 기본 데이터 처리 엔진

RDD(Resilient Distributed Dataset)
- Spark의 핵심 데이터 구조로, 데이터가 변경되지 않는 데이터 컬렉션
- 분산 처리와 결합된 데이터 복구 기능 제공
- 기본적인 데이터 처리 작업이 이루어지는 위치
- 로우레벨 데이터로 클러스터내의 서버에 분산된 데이터를 지칭
- 레코드별로 존재하지만 스키마가 존재하지 않음
- 구조화된 데이터나 비구조화된 데이터 모두 지원
DataFrame
- 구조화된 데이터로 이루어진 데이터셋
- RDD보다 사용하기 간편하고 SQL 쿼리 사용 가능
- 데이터의 스키마 정보를 포함하여 성능 최적화
- RDD위에 만들어지는 RDD와는 달리 필드 정보를 갖고 있음
Dataset
- DataFrame과 유사하지만, 정적 타입(컴파일 시점에 타입 결정)을 지원
- Scala, Java에서 사용 가능하지만, Python 미지원
Spark SQL
- SQL-like 언어를 사용하여 구조화된 데이터 처리
- RDBMS와 유사하게 데이터를 질의하고 분석 가능
Spark Streaming
- 실시간 데이터 스트리밍 처리
- Kafka, Flume 같은 스트리밍 데이터 소스와 연동 가능
MLlib
- 머신 러닝 라이브러리로, [회귀, 분류, 클러스터링 등]의 알고리즘 지원
- 데이터 준비 및 피처 엔지니어링 도구 지원
GraphX
- 그래프 데이터와 관련된 작업 처리
- 그래프와 RDD를 결합하여 대규모 그래프를 병렬 처리