[데이터 엔지니어링 데브코스 4기] 11주차 11/26 TIL
·
데이터 엔지니어링 데브코스
안녕하세요 김줘입니다! 오늘도 어제와 동일하게 프로젝트를 계속해서 진행하고 있습니다. 다른 팀에 비해 저희 팀 진행 사항이 조금 초라한 것 같아, 이번 프로젝트는 간단하게 넘기고, 개인 프로젝트를 진행하려고 합니다!! 그리고 중간에 데이터가 비어있는 경우를 편하게 처리하기 위해,스케줄을 일주일 단위로 실행한 것도 조금 아쉬운 것 같아요. 제 생각은 하루 단위로 데이터를 불러오고, 만약에 불러온 최신 데이터와 날짜가 다르다면, null로 채우는 게 더 좋다고 생각했는데, 받아들여지지 않아서.... 일주일 단위 스케줄링으로 진행이 됐습니다.. 이번에 경험해 본 바로는 다양한 데이터 소스가 많기에, 작은 airflow를 이용한 시각화 프로젝트는 중간에 시간을 내어 진행할 수 있을 것 같아, 다양한 주제로 프로..
[데이터 엔지니어링 데브코스 4기] 11주차 11/25 TIL
·
데이터 엔지니어링 데브코스
안녕하세요!! 김줘입니다!! 오늘도 금요일과 동일하게 Airflow를 이용한 프로젝트를 진행 중에 있습니다! 프로젝트 기간에는 포스팅할 내용이 없어서 큰일이에요 ㅋㅋㅋㅋ 오늘 작업 내용을 간략히 말하자면,기존에 yfinance로부터 가져오는 가상화폐 데이터에 날짜의 연속성이 깨지는 부분이 존재하여 Binance에서 제공하는 API로 수정하여 DAG를 작성입니다! 데이터를 2023-01-01부터 가져와야하기에, catchup 설정을 통해 실행시키는 부분에서, 목표 최근 실행 날짜에 DAG가 실행되지 않아 수정하는 부분에서 굉장히 애를 먹었습니다.. 이 부분에 대해서는 추후에 어떻게 해결했는지 포스팅을 해보도록 하겠습니다. 오늘도 봐주시는 여러분 감사합니다!!
[데이터 엔지니어링 데브코스 4기] 10주차 11/22 TIL
·
데이터 엔지니어링 데브코스
안녕하세요 김줘입니다!! 오늘은 드디어 3차 프로젝트가 시작되었습니다!! 많이 진행한 것은 없지만,우선 타겟 데이터를 가져오고 적재하는 DAG를 예시로 하나 작성해보았고, 성공적으로 돌아가는 것을 확인할 수 있었습니다!! 그렇기에 아마 조금 여유를 두고,추가적인 데이터 소스를 통해 프로젝트 볼륨을 확장하고자 하는 것이 팀 전체의 의견이라, 오늘 남은 시간은 지금 보유하고 있는 데이터와 엮을 수 있는 데이터를 찾아보려고 합니다!! 프로젝트 기간은 아마도 따로 추가적인 기술 포스팅은 하지 않을 예정이지만,안부 인사와 일기 작성 차 포스팅을 할 예정이니, 많은 관심 부탁드립니다! 오늘도 봐주시는 여러분 감사합니다!!
[데이터 엔지니어링 데브코스 4기] 10주차 11/21 TIL
·
데이터 엔지니어링 데브코스
안녕하세요! 김줘입니다!! 오늘도 어제와 동일하게 dbt에 대한 강의가 이어졌습니다! 2024.11.21 - [데이터/dbt] - [dbt] 2. Seeds, Sources, Tests, Documentation, Expectations 이론에 대한 내용보다는 약간의 이론 + 실습 위주의 강의로 진행되어, 오늘은 포스팅할 내용이 적네요! 내일부터는 Airflow를 사용해서 End-to-End 프로젝트를 진행하는데,아직 완벽하게 인프라, 세부 주제가 정해진 것이 아니라, 발빠르게 진행해야할 것 같아요!! 내일부터 프로젝트 기간동안 열심히 해야하기에,오늘 포스팅은 여기서 마무리하도록 하겠습니다!! 오늘도 봐주시는 여러분 감사합니다!!
[dbt] 2. Seeds, Sources, Tests, Documentation, Expectations
·
데이터/dbt
dbt Seeds외부 데이터 파일(CSV, Excel 등)을 DBT 프로젝트 내에서 테이블로 변환하는 기능외부 데이터를 데이터베이스 or 데이터 웨어하우스로 로드할 때 사용dbt Sources외부 시스템에 있는 원본 데이터를 정의하는 기능Source 테이블을 참조하는 테이블 모두 바꿔야하는 번거로운 작업 감소스키마, 테이블에 alias를 부여하여 Source 테이블이 바뀌더라도 이후 작업에 영향 XSource 테이블에 새 레코드가 있는지 체크해주는 기능 제공예시더보기1. models/sources.yml 파일 생성version: 2sources: - name: SchemaAlias -- 스키마 별칭 schema: raw_data tables: - name: event -- 테이블 ..