[데이터 엔지니어링 데브코스 4기] 9주차 11/12 TIL
·
데이터 엔지니어링 데브코스
안녕하세요! 김줘입니다! 오늘은 Airflow의 Backfill에 대해 추가적인 설명이 이어졌고,Operator를 통한 MySQL -> S3 -> Redshift로의 DAG를 어떻게 만들 수 있는 지에 대한 강의가 이어졌습니다! Operator가 종류가 굉장히 많아서, 내부 파라미터까지 정리하기 위해 저도 공부하고 알아볼 필요가 있을 것 같아서 추후 포스팅할 것 같습니다!해당 이유로 오늘은 Backfill에 대한 포스팅만 존재합니다..2024.11.12 - [데이터/Airflow] - [Airflow] 5. Backfill? 내일부터는 Docker와 K8S에 대한 강의가 순차적으로 이루어질 예정이라, 조금 바빠질 것 같아요!강의가 무시무시하게 많더라구요... 그리고 오늘 새로운 3차 팀원분들과 첫 스크럼..
[Airflow] 5. Backfill?
·
데이터/Airflow
Backfill?실패한 데이터 파이프라인을 재실행 or 읽어온 데이터의 문제로 다시 읽어와야하는 경우를 의미Airflow에서의 Backfill과거 특정 날짜에 대한 DAG 실행을 수동으로 수행하여 데이터 파이프라인을 다시 실행하는 과정새로운 DAG를 추가하거나, DAG의 설정을 변경한 후, 누락된 과거 데이터를 처리하기 위해 사용Backfill의 주요 목적데이터 누락 방지 : 과거 DAG가 실행되지 않아서 누락된 데이터를 채우는 데 사용데이터 갱신 : 과거 DAG에 에러가 발생한 경우, 과거 데이터를 갱신하기 위해 사용데이터 재처리 : 데이터 처리 로직이 변경된 후 과거 데이터를 새 로직에 맞게 재처리하기 위해 사용Backfill 관련 Airflow 변수start_dateDAG가 처음 실행되는 날짜가 ..