[데이터] Primary Key Uniqueness?
·
데이터
Primary Key Uniqueness테이블에서 하나의 레코드의 유일, 최소성을 갖게하는 필드여러 개의 필드로 구성 가능RDBMS에서 Primary Key의 중복 방지IN 빅데이터 기반 데이터 웨어하우스Primary key를 기준으로 유일성, 최소성 미보장보장하는데 메모리와 시간이 더 들기에 대용량 데이터 적재에 걸림돌미보장 예시더보기CREATE TABLE schema.test ( date date primary key, value bigint);INSERT INTO schema.test VALUES ('2024-11-11', 1);INSERT INTO schema.test VALUES ('2024-11-11', 5); -- 해당 작업 성공Primary Key Uniqueness 보장 방..
[Airflow] 4. Airflow.cfg?
·
데이터/Airflow
Airflow.cfg?Airflow.cfg는 Apache Airflow의 주요 설정 파일Airflow의 다양한 기능과 컴포넌트의 동작 방식을 정의하는 데 사용주요 섹션과 설정 항목[core]Airflow의 전반적인 설정을 하는 섹션설정 항목dags_folder : DAG 파일이 위치한 폴더 경로를 정의executor : Task 실행에 사용할 executor 정의sql_alchemy_conn : Airflow 메타데이터 데이터베이스의 연결 문자열load_examples : True로 설정 시 Airflow 기본 예제 DAG 로드default_timezone : Airflow 전체에서 기본적으로 사용할 Timezone 설정[webserver]Airflow 웹 서버 관련 설정설정 항목base_url : Ai..
[Airflow] 3. Python Operator / Task Decorator
·
데이터/Airflow
Python OperatorAirflow 1.x에서 주로 사용Python 함수를 Task로 실행할 때 PythonOperator 객체 사용명시적으로 함수를 Task로 래핑하여 실행예시 코드더보기from airflow import DAGfrom airflow.operators.python import PythonOperatorfrom datetime import datetime# 추출 함수def extract(url): print(f"Extracting data from {url}") return ['data1', 'data2', 'data3'] # 예시 데이터# 변환 함수def transform(data): print(f"Transforming data: {data}") retur..