[Kafka] 2. Partition & Segment
·
데이터/Kafka
Kafka Partition에 대한 내용은 [Kafka] 1. Kafka? 에서 확인하실 수 있습니다!Partition & Segment하나의 Partition은 여러개의 Segment로 구성Segment는 변경된지 않고 추가만 되는 로그 파일이라고 볼 수 있음 -> *Commit Log*Commit LogSequential, Immutable, Append-OnlyReplication과 Fault Tolerance의 최소 단위Data Recovery나 Replay에 사용 가능WAL (Write Ahead Logging)데이터 무결성과 신뢰성을 보장하는 표준 방식데이터베이스에 대한 모든 변경 사항을 먼저 Commit Log에 기록각 Segment는 디스크 상에 존재하는 하나의 파일Segment는 최대 크..
[Kafka] 1. Kafka?
·
데이터/Kafka
Kafka?분산형 메시지 브로커 시스템으로, 실시간 데이터 스트리밍, 로그 수집, 이벤트 처리 등에 사용Scalability와 Fault Tolerance를 제공하는 Publish-Subscription 메시징 시스템High Throughput과 Low Latency 실시간 데이터 처리에 맞게 구현됨분산 아키텍처를 따르기 때문에 Scale Out 형태로 스케일 조정 가능특징분산 시스템여러 브로커(서버)로 구성된 클러스터에서 작동데이터의 복제와 분산 처리를 통해 안정성과 확장성을 보장스트림 처리실시간 스트림 처리를 목표로하는 서비스ksqlDB를 통해 SQL로도 실시간 이벤트 데이터 처리 가능토픽 기반 메시징데이터는 논리적 파이프라인인 토픽에 저장되며, 프로듀서가 토픽에 데이터를 게시하면 컨슈머가 구독메시지..
[Spark] 8. Spark with AWS
·
데이터/Spark
Spark with AWSAWS에서 Spark를 실행하기 위해서는 *EMR(Elastic MapReduce) 위에서 실행하는 것이 일반적*EMR?AWS의 Hadoop 서비스Hadoop(Yarn), Spark, Hive, Notebook 등이 설치되어 제공되는 서비스EC2 서버들을 worker node로 사용하고 S3를 HDFS로 사용AWS 내의 다른 서비스와 연동이 쉽다!Spark on EMRAWS의 EMR 클러스터 생성EMR 생성 시 Spark를 소프트웨어로 선택생성 방법EMR 클러스터 생성EMR 콘솔로 이동 및 Create Cluster 선택Cluster Name 지정소프트웨어 구성Spark가 포함된 EMR 릴리즈 선택Spark 및 필요 애플리케이션이 포함된 애플리케이션 선택하드웨어 구성Master ..