[데이터 엔지니어링 데브코스 4기] 7주차 10/30 TIL
·
데이터 엔지니어링 데브코스
안녕하세요!! 김줘입니다! 오늘은 어제 학습한 Redshift에 대한 실습을 진행하였습니다. 직접 S3에 데이터를 적재하고 Redshift에 COPY하여 테이블에 데이터를 넣고, 새롭게 분석용 테이블을 만드는 등 재밌는 실습이 많았어요! 아무래도 실습 위주였기에 오늘 추가적인 포스팅은 하지 않고,코딩테스트 문제를 개인적으로 풀고, 늦은 저녁에 멘토님과 1대1 미팅을 진행할 것 같아요! 새롭게 알게되는 지식과 내용에 대해서는 꾸준히 포스팅하고 있으니,앞으로도 블로그 잘 봐주세요! 오늘도 포스팅 봐주시는 여러분 감사합니다!!
[데이터 엔지니어링 데브코스 4기] 7주차 10/29 TIL
·
데이터 엔지니어링 데브코스
안녕하세요!! 김줘입니다. 오늘은 데이터 웨어하우스에 대한 강의가 진행되었습니다! 강사분도 바뀌었고 배우는 기술도 데엔의 핵심인 기술인 것도 있지만,강의가 자세하고 교안도 그나마 최신에다가 설명이 정말 좋아서 너무너무너무 만족스러워요. 개인적으로 AWS 강의는 전면 개편을 해야한다고 생각하지만,데이터 파트는 오히려 기간과 양을 늘려서 더 배우고 싶다는 생각이 들었습니다. 괜히 유명하신 분이 아닌 것 같아요..진짜 최악을 경험해서 그런지 체감이 더 ㅋㅋㅋㅋㅋㅋ 오늘 공부한 내용은2024.10.29 - [데이터] - [데이터] 데이터 웨어하우스?2024.10.29 - [데이터] - [데이터] 데이터 레이크?2024.10.29 - [AWS] - [데이터, AWS] 15. Redshift? 이렇게 이론만 정리했..
[데이터, AWS] 15. Redshift?
·
AWS
Redshift?AWS에서 제공하는 완전 관리형 클라우드 기반 데이터 웨어하우스 서비스!대규모 데이터 세트를 빠르게 분석하고 복잡한 쿼리를 처리할 수 있도록 설계관계형 데이터베이스와 유사한 SQL 쿼리를 지원Redshift의 특징2PB의 데이터까지 처리 가능(최소 160GB)Still OLAP : 응답속도가 빠르지 않아, 프로덕션 데이터베이스로 사용 불가컬럼 기반 스토리지레코드 별로 저장하는 것이 아닌, 컬럼 별 저장컬럼별 압축이 가능하며, 컬럼의 추가, 삭제 작업이 매우 빠름!벌크 업데이트 지원 : 레코드가 들어있는 파일을 S3로 복사 후 COPY 커맨드로 Redshift로의 일괄 복사 가능!데이터 공유(Datashare) : 다른 AWS 계정과 특정 데이터 공유 가능!Primary Key Unique..
[데이터] 데이터 레이크?
·
데이터
Data Lake?다양한 원시 데이터를 포함하여 구조화 데이터, 반구조화 데이터, 비구조화 데이터를 대규모로 저장하는 중앙 집중형 저장소! Data Lake의  특징원시 데이터 저장 : 정형 데이터(SQL 데이터베이스, CSV 파일 등)와 비정형 데이터(이미지, 텍스트, 로그 등)의 원래 형태를 유지한 채 저장 가능!유연한 스키마 : 데이터 저장 시 스키마 정의가 필요하지 않고, 데이터 분석이나 처리 시에 필요에 따라 스키마를 적용!확장성 : 대용량 데이터를 비용 효율적으로 저장할 수 있는 Scalable 저장소(보통 클라우드 스토리지)를 사용하여, 스토리지 용량을 자유롭게 확장 가능!다양한 데이터 분석 지원 : BI, 빅데이터 분석, 머신러닝 등 다양한 분석 작업 지원!데이터 웨어하우스 vs 데이터 레..
[데이터] 데이터 웨어하우스?
·
데이터
Data Warehouse?여러 소스에서 수집된 데이터를 통합하고, 분석 및 보고에 최적화된 방식으로 데이터를 저장하는 데이터베이스 시스템!일반적으로 기업의 의사결정 지원 시스템을 위해 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스라고 생각하면 됩니다!프로덕션용 데이터베이스는 OLTP(Online Transaction Processing). 즉, 운영에 최적화 되어있기에 OLAP(Online Analytical Processing, 분석)에 중점을 둔 Data Warehouse와 별개의 데이터베이스로 구성 필요!Data Warehouse의 특징주체 지향성 : 특정 비즈니스 주제를 중심으로 데이터를 적재 및 정리하여 분석에 최적화!통합성 : 다양한 소스(ERP, CRM 등)에서 온 데이터를 하나로..