[데이터 엔지니어링 데브코스 4기] 11주차 11/29 TIL
·
데이터 엔지니어링 데브코스
안녕하세요!! 김줘입니다!! 오늘도 어제에 이어서 Spark 강의를 듣다가 피곤해서 기절해버렸답니다 ㅋㅋㅋㅋ 오늘 배운 Spark 내용에 대한 정리는 빠른 시일 내에 포스팅하도록 하겠습니다!!(+ 포스팅 완료하면 해당 포스트 링크 걸어두도록 하겠습니다!! -> 완료!)2024.12.02 - [데이터/Spark] - [Spark] 2. Spark Session2024.12.02 - [데이터/Spark] - [Spark] 3. Spark SQL 분명 많이 잔 것 같은데, 겁나 피곤하네요..! 저는 그럼 남은 강의를 듣고 포스팅하도록 하겠습니다!! 오늘도 봐주시는 여려분 감사합니다!!
[데이터 엔지니어링 데브코스 4기] 11주차 11/28 TIL
·
데이터 엔지니어링 데브코스
안녕하세요! 김줘입니다!! 오늘은 오전부터 실시간 강의 3시간이 있어서 굉장히 진빠지는 날이었습니다..강의 이후 최종 팀 구성에 대한 공지가 이루어져 이후 게속 관련 얘기가 오가느라 조금 피곤한 날이네요! 우선 오늘은 Hadoop과 Spark에 대한 간략한 설명이 이어졌습니다.Hadoop에 대한 설명을 자세하게 정리할까 생각도 있지만, 데브코스는 Spark에 중점을 두고 강의가 진행되기에 Hadoop의 핵심 개념인 YARN에 대한 정리와 Spark의 이론에 대해 간단히 포스팅을 했습니다! 2024.11.28 - [데이터] - [Hadoop] 1. YARN?2024.11.28 - [데이터] - [Spark] 1. Spark? 자세한 내용은 해당 포스팅에서 확인하실 수 있습니다!! 벌써 데브코스 과정이 막바..
[Spark] 1. Spark?
·
데이터/Spark
Spark?대규모 데이터 처리와 분석을 위해 개발된 오픈 소스 분산 데이터 처리 프레임워크Hadoop을 잇는 2세대 빅데이터 기술로 YARN 등을 분산 환경으로 사용Spark 주요 특징빠른 데이터 처리Spark는 데이터를 메모리에 유지하며 처리하여 디스크 I/O 작업 감소반복적인 작업에 뛰어난 성능다양한 데이터 소스 지원HDFS(Hadoop Distributed File System)Amazon S3, Azure StorageNoSQL DB(Cassandra, HBase 등)SQL DB와 통합 가능다중 언어 지원Python(PySpark), Java, Scala, R, SQL 등 다양한 프로그래밍 언어로 작업 가능확장성수백 ~ 수천 대의 클러스터 노드를 확장하여 대규모 데이터를 병렬로 처리다양한 라이브러..
[Hadoop] 1. YARN?
·
데이터
YARN?Yet Another Resource Negotiator -> 또 다른 작업 협상자!Hadoop 2.0부터 도입된 Resource Management Layer. 즉, Hadoop 에코시스템의 자원 관리 프레임워크로, 클러스터의 컴퓨팅 자원을 효율적으로 관리하고 작업을 스케줄링HDFS 위에서 동작하며, 데이터 저장과 처리가 분리된 구조 지원ArchitectureResourceManager : 클러스터 전체의 자원을 관리하고 작업 실행을 조율NodeManager : 각 노드에서 자원 사용 상태를 관리하고 작업 컨테이너 실행ApplicationMaster : 특정 애플리케이션의 실행 계획을 관리하고 자원 요청Container : 작업 실행에 필요한 자원을 묶어 제공하는 최소 단위의 실행 환경YARN..
[데이터 엔지니어링 데브코스 4기] 11주차 11/27 TIL
·
데이터 엔지니어링 데브코스
안녕하세요! 김줘입니다!! 이제는 일기가 되어버린듯한 TIL 포스팅입니다 ㅋㅋㅋㅋ! 오늘로써 데이터 엔지니어링 데브코스의 3차 프로젝트가 마무리 되었습니다!! 데이터 스케줄링 시간과 프로젝트 사이즈가 조금 아쉽지만, 데이터 수집부터 시각화까지 Airflow를 이용해서 프로젝트를 진행했다는 점에서 참 좋았던 것 같습니다! 시각화 결과물을 조금 보여드리자면, 이러한 시각화 차트가 다양하게 있습니다! 제 담당인 암호화폐 시각화 중 일부만 가져온 것이고, 데이터는 Binance API를 통해 수집했습니다! 어제도 말씀드렸지만, 이번 프로젝트에서 추가로 아쉬운 점은,데이터 양이 적은 점AWS 비용 최소화를 위해 EC2를 사용하지 않고 Redshift만 사용한 점명확한 세부 주제 설정입니다!! 이제 앞으로 최종 프..