Stream Processing과 Apache Flink 프레임워크에 대한 내용을 알아보고, Flink를 사용하여 실시간 데이터 처리 및 분석을 수행하는 방법과 주요 특징에 대해 설명합니다.
Author
한 제호
-
-
Apache Airflow에 대한 개요와 핵심 용어, 아키텍처, DAG(Directed Acyclic Graph)의 생성 및 실행 과정, Web UI, 내장 및 외부 Operator, Catch Up과 Backfill과 같은 데이터 처리 및 실행 제어 기능에 …
-
Spark Backend Service – Optimizer에 대해 알아봅니다. Spark의 Catalyst Project는 데이터 처리 작업 최적화와 실행 계획 생성을 담당하며, Catalyst Pipeline은 분석과 최적화로 쿼리 성능을 향상시킵니다.
-
Apache Kafka에 대한 개요와 기본 개념을 다루며, 이벤트 스트리밍 플랫폼으로서의 역할, 데이터 전송 아키텍처의 변화, Kafka의 구성요소 및 동작 원리, 기존 메시징 시스템과의 차이점, 활용 사례 등을 알아봅니다.
-
AWS의 데이터 분석 서비스, Dataset, Analysis, dashboard, 사용자, 그룹, 네임 스페이스, 자산 공유, 보안, Audit Log, 사용자별 로그 추적, 버전 별 기능 및 가격 정책까지 Quicksight에 대해 자세히 알아봅니다.
-
Data Lakehouse에 대해 알아봅니다. 정형(DBMS), 반정형(CSV, XML, JSON등), 비정형 및 이진 데이터(PDF, dnjem, 이메일, 오디오, 비디오, 이미지 등)의 다양한 형태의 데이터를 원시 형태로 저장하는 단일 데이터 저장소입니다.