Data Lakehouse란?

안녕하세요, 오늘은 베스핀글로벌 D&A실 한제호님이 작성해 주신 ‘Data Lakehouse란?’에 대해 알아보겠습니다.

궁금하신 부분이 있으시면 댓글을 달아주세요 🙂

Data Lakehouse

빅데이터 아키텍처 패러다임

Data Warehouse

  • Workload
  • Data Warehouse on Cloud

데이터 레이크란?

  • 정형(DBMS), 반정형(CSV, XML, JSON등), 비정형 및 이진 데이터(PDF, dnjem, 이메일, 오디오, 비디오, 이미지 등)의 다양한 형태의 데이터를 원시 형태로 저장하는 단일 데이터 저장소
  • 데이터를 원시 형태로 저장 → ‘특정 목적을 위해 처리하지 않고, 원래 형태를 그대로 저장한다.’
  • 전통적인 Data warehouse와의 차이점
비교 항목Data WarehouseDataLake
데이터처리 및 정제 된 데이터, 즉 특정 비즈니스 문제를 보고하고 해결하는데 필요한 구조화된 데이터만 다룬다.모든 원시 데이터를 보관 Transformation 솔루션을 통해 비즈니스 케이스에 따라 처리 및 정제가 될 수 있다.
사용자비즈니스 전문가, 운영 사용자, 비즈니스 분석가데이터 개발자, 데이터 과학자
구조Schema on WriteSchema on Read
목적저장된 데이터는 구체적이고 명확한 목적을 가지고 있다. ETL를 통해 필요한 형태로 가공하여 저장된다. 데이터 레이크보다는 작은 저장 공간이 필요하다.수집되는 원시데이터는 목적 및 필요 유무가 확정되지 않은 데이터이다. 때로는 향후 사용을 염두에 두고 수집되는 경우가 있기 때문에 데이터 웨어하우스에 비해 덜 체계적이고 필터링 되는 경우가 적다.
해석학BI와 같은 시각화 툴을 통해 활용된다.데이터 프로파일링, ML등 다양한 툴을 통해 활용 가능하다.
데이터 유형전통적인 트랜잭션 시스템에서 가져온 정형 데이터 위주로 구성된다.서버 로그, 센서 데이터, 소셜 네트워크 활동, 텍스트, 이미지, 멀티미디어 등과 같은 비 전통적인 데이터 유형을 매우 잘 지원한다.
민첩성서버 구성이 고정된 형태로 구성되기 때문에 민첩성이 떨어진다.필요에 따라 구성 및 재구성이 가능하기 때문에 민첩성이 높다.
  • 데이터 레이크는 일반적으로 저장소를 지칭하나 Enterprise 환경에서는 메타데이터, 접근제어 등의 거버넌스 솔루션과의 조합을 통해 데이터 레이크 플랫폼으로 구성되는 것이 일반적이다.

데이터 레이크의 한계

  • No ACID
  • A = Atomicity = 원자성: 데이터를 작성할 때 전체 데이터를 쓰거나 아무것도 쓰지 않아야 함
  • C = Consistency = 일관성: 데이터에 대한 유효한 상태를 보장해야 함
  • I = Isoation = 고립성: 트랜잭션이 진행 중이고 아직 commit이 안된 경우 다른 트랜잭션과 격리된 상태를 유지해야 함
  • D = Durablility = 내구성: commit된 트랜잭션이 영구적으로 유지되도록 보장해야 함
  • 히스토리 관리 기능 부재에 따른 데이터 rollback 처리 불가
  • 데이터 처리 오류에 따른 rollback 기능 부재에 따라 원천에서 다시 데이터를 입수해야 한다.
  • Row 또는 컬럼 단위 갱신 처리 한계
  • Data Lake는 파일 형태의 데이터이기 때문에 특정 Row 단위 갱신이 불가능하다. (Update, Delete, Merge 기능 미 지원)
  • 갱신이 필요한 데이터는 매번 “전체 데이터 덮어쓰기” 하거나 “기존 데이터 + 변경 데이터 가공 후 덮어쓰기” 형태로 구현해야 하기 때문에 많은 시간, 비용이 발생한다.
  • 스키마 정합성 미 보장
  • Datalake는 Schema on Read 형태이기 때문에 쓰기 시점에 스키마 정합성을 보장하지 않는다. 그래서 다른 형태의 데이터를 쓰더라도 오류가 발생하지는 않는다.

데이터 레이크 하우스란?

  • 데이터 레이크 장점을 유지면서 기존 데이터 웨어하우스 장점(Datalake 단점을 보완)을 조합한 신규 아키텍처이다.
  • 데이터 레이크하우스는 기존에 활용하던 Object Storage 위에 데이터 레이크하우스 모듈을 적용하여 구축할 수 있다.

데이터 레이크하우스 기반 기술

  • Deltalake
  • ACID 트랜젝션 지원
  • Batch + Stream 통합
  • 스키마 정합성 보장
  • Time Travel : 스키마 단위 버저닝을 통해 이전 데이터에 대한 조회 및 rollback 기능 제공
  • Hudi
  • Iceberge

감사합니다 🙂

문의: info@bespinglobal.com | 대표번호: 02-1668-1280

Leave a Comment