[Spark] 6. Spark Execution Plan
·
데이터/Spark
Spark 실행 계획Apache Spark는 분산 데이터 처리 엔진으로, 쿼리를 최적화하고 실행하기 위해 여러 단계를 거침그렇기에 Spark에서 작업이 어떻게 실행되는지 이해하는 것은 성능 최적화에 매우 중요!!Transformation vs. ActionTransform기존 데이터를 기반으로 새로운 데이터를 정의하는 연산지연 실행(Lazy Execution) 방식으로 동작 -> 실제 계산은 Action이 호출될 때까지 실행 X지연 실행을 통해 실행 계획 최적화 가능종류Narrow Dependencies : 다른 파티션의 데이터를 필요로 하지 않고, 각 파티션에서 독립적으로 작업을 수행할 수 있는 연산예시selectfiltermapWide Dependnecies : 여러 파티션에서 데이터를 가져와야 하며..