[데이터 엔지니어링 데브코스 4기] 11주차 11/27 TIL
·
데이터 엔지니어링 데브코스
안녕하세요! 김줘입니다!! 이제는 일기가 되어버린듯한 TIL 포스팅입니다 ㅋㅋㅋㅋ! 오늘로써 데이터 엔지니어링 데브코스의 3차 프로젝트가 마무리 되었습니다!! 데이터 스케줄링 시간과 프로젝트 사이즈가 조금 아쉽지만, 데이터 수집부터 시각화까지 Airflow를 이용해서 프로젝트를 진행했다는 점에서 참 좋았던 것 같습니다! 시각화 결과물을 조금 보여드리자면, 이러한 시각화 차트가 다양하게 있습니다! 제 담당인 암호화폐 시각화 중 일부만 가져온 것이고, 데이터는 Binance API를 통해 수집했습니다! 어제도 말씀드렸지만, 이번 프로젝트에서 추가로 아쉬운 점은,데이터 양이 적은 점AWS 비용 최소화를 위해 EC2를 사용하지 않고 Redshift만 사용한 점명확한 세부 주제 설정입니다!! 이제 앞으로 최종 프..
[데이터 엔지니어링 데브코스 4기] 11주차 11/26 TIL
·
데이터 엔지니어링 데브코스
안녕하세요 김줘입니다! 오늘도 어제와 동일하게 프로젝트를 계속해서 진행하고 있습니다. 다른 팀에 비해 저희 팀 진행 사항이 조금 초라한 것 같아, 이번 프로젝트는 간단하게 넘기고, 개인 프로젝트를 진행하려고 합니다!! 그리고 중간에 데이터가 비어있는 경우를 편하게 처리하기 위해,스케줄을 일주일 단위로 실행한 것도 조금 아쉬운 것 같아요. 제 생각은 하루 단위로 데이터를 불러오고, 만약에 불러온 최신 데이터와 날짜가 다르다면, null로 채우는 게 더 좋다고 생각했는데, 받아들여지지 않아서.... 일주일 단위 스케줄링으로 진행이 됐습니다.. 이번에 경험해 본 바로는 다양한 데이터 소스가 많기에, 작은 airflow를 이용한 시각화 프로젝트는 중간에 시간을 내어 진행할 수 있을 것 같아, 다양한 주제로 프로..
[데이터 엔지니어링 데브코스 4기] 11주차 11/25 TIL
·
데이터 엔지니어링 데브코스
안녕하세요!! 김줘입니다!! 오늘도 금요일과 동일하게 Airflow를 이용한 프로젝트를 진행 중에 있습니다! 프로젝트 기간에는 포스팅할 내용이 없어서 큰일이에요 ㅋㅋㅋㅋ 오늘 작업 내용을 간략히 말하자면,기존에 yfinance로부터 가져오는 가상화폐 데이터에 날짜의 연속성이 깨지는 부분이 존재하여 Binance에서 제공하는 API로 수정하여 DAG를 작성입니다! 데이터를 2023-01-01부터 가져와야하기에, catchup 설정을 통해 실행시키는 부분에서, 목표 최근 실행 날짜에 DAG가 실행되지 않아 수정하는 부분에서 굉장히 애를 먹었습니다.. 이 부분에 대해서는 추후에 어떻게 해결했는지 포스팅을 해보도록 하겠습니다. 오늘도 봐주시는 여러분 감사합니다!!