[Spark] 5. File Format
·
데이터/Spark
Spark File FormatCSV특징텍스트 기반의 파일 포맷데이터를 콤마로 구분장점매우 단순하고, 다른 시스템에서 쉽게 사용 가능가벼운 데이터 전송을 위해 사용단점스키마 정보가 포함되지 않아서 데이터 구조를 명확히 알 수 없음큰 데이터셋 처리 시 성능 저하예시df = spark.read.option("header", "true").csv("path/to/file.csv") JSON특징텍스트 기반의 파일 포맷키-값 쌍의 형태로 데이터 저장데이터 계층 구조 지원장점유연한 데이터 구조 지원다른 시스템과 쉽게 호환단점대량의 데이터에 대해 성능 좋지 않음 (텍스트로 저장되기에 크기 증가)스키마 정보 명시적으로 제공 X예시df = spark.read.json("path/to/file.json") Parquet특..