[Spark] 1. Spark?
·
데이터/Spark
Spark?대규모 데이터 처리와 분석을 위해 개발된 오픈 소스 분산 데이터 처리 프레임워크Hadoop을 잇는 2세대 빅데이터 기술로 YARN 등을 분산 환경으로 사용Spark 주요 특징빠른 데이터 처리Spark는 데이터를 메모리에 유지하며 처리하여 디스크 I/O 작업 감소반복적인 작업에 뛰어난 성능다양한 데이터 소스 지원HDFS(Hadoop Distributed File System)Amazon S3, Azure StorageNoSQL DB(Cassandra, HBase 등)SQL DB와 통합 가능다중 언어 지원Python(PySpark), Java, Scala, R, SQL 등 다양한 프로그래밍 언어로 작업 가능확장성수백 ~ 수천 대의 클러스터 노드를 확장하여 대규모 데이터를 병렬로 처리다양한 라이브러..