안녕하세요, 오늘은 베스핀글로벌 D&A실 한제호님이 작성해 주신 ‘Data Lakehouse란?’에 대해 알아보겠습니다.
궁금하신 부분이 있으시면 댓글을 달아주세요 🙂
Data Lakehouse
빅데이터 아키텍처 패러다임
Data Warehouse
- Workload
- Data Warehouse on Cloud
데이터 레이크란?
- 정형(DBMS), 반정형(CSV, XML, JSON등), 비정형 및 이진 데이터(PDF, dnjem, 이메일, 오디오, 비디오, 이미지 등)의 다양한 형태의 데이터를 원시 형태로 저장하는 단일 데이터 저장소
- 데이터를 원시 형태로 저장 → ‘특정 목적을 위해 처리하지 않고, 원래 형태를 그대로 저장한다.’
- 전통적인 Data warehouse와의 차이점
비교 항목 | Data Warehouse | DataLake |
데이터 | 처리 및 정제 된 데이터, 즉 특정 비즈니스 문제를 보고하고 해결하는데 필요한 구조화된 데이터만 다룬다. | 모든 원시 데이터를 보관 Transformation 솔루션을 통해 비즈니스 케이스에 따라 처리 및 정제가 될 수 있다. |
사용자 | 비즈니스 전문가, 운영 사용자, 비즈니스 분석가 | 데이터 개발자, 데이터 과학자 |
구조 | Schema on Write | Schema on Read |
목적 | 저장된 데이터는 구체적이고 명확한 목적을 가지고 있다. ETL를 통해 필요한 형태로 가공하여 저장된다. 데이터 레이크보다는 작은 저장 공간이 필요하다. | 수집되는 원시데이터는 목적 및 필요 유무가 확정되지 않은 데이터이다. 때로는 향후 사용을 염두에 두고 수집되는 경우가 있기 때문에 데이터 웨어하우스에 비해 덜 체계적이고 필터링 되는 경우가 적다. |
해석학 | BI와 같은 시각화 툴을 통해 활용된다. | 데이터 프로파일링, ML등 다양한 툴을 통해 활용 가능하다. |
데이터 유형 | 전통적인 트랜잭션 시스템에서 가져온 정형 데이터 위주로 구성된다. | 서버 로그, 센서 데이터, 소셜 네트워크 활동, 텍스트, 이미지, 멀티미디어 등과 같은 비 전통적인 데이터 유형을 매우 잘 지원한다. |
민첩성 | 서버 구성이 고정된 형태로 구성되기 때문에 민첩성이 떨어진다. | 필요에 따라 구성 및 재구성이 가능하기 때문에 민첩성이 높다. |
- 데이터 레이크는 일반적으로 저장소를 지칭하나 Enterprise 환경에서는 메타데이터, 접근제어 등의 거버넌스 솔루션과의 조합을 통해 데이터 레이크 플랫폼으로 구성되는 것이 일반적이다.
데이터 레이크의 한계
- No ACID
- A = Atomicity = 원자성: 데이터를 작성할 때 전체 데이터를 쓰거나 아무것도 쓰지 않아야 함
- C = Consistency = 일관성: 데이터에 대한 유효한 상태를 보장해야 함
- I = Isoation = 고립성: 트랜잭션이 진행 중이고 아직 commit이 안된 경우 다른 트랜잭션과 격리된 상태를 유지해야 함
- D = Durablility = 내구성: commit된 트랜잭션이 영구적으로 유지되도록 보장해야 함
- 히스토리 관리 기능 부재에 따른 데이터 rollback 처리 불가
- 데이터 처리 오류에 따른 rollback 기능 부재에 따라 원천에서 다시 데이터를 입수해야 한다.
- Row 또는 컬럼 단위 갱신 처리 한계
- Data Lake는 파일 형태의 데이터이기 때문에 특정 Row 단위 갱신이 불가능하다. (Update, Delete, Merge 기능 미 지원)
- 갱신이 필요한 데이터는 매번 “전체 데이터 덮어쓰기” 하거나 “기존 데이터 + 변경 데이터 가공 후 덮어쓰기” 형태로 구현해야 하기 때문에 많은 시간, 비용이 발생한다.
- 스키마 정합성 미 보장
- Datalake는 Schema on Read 형태이기 때문에 쓰기 시점에 스키마 정합성을 보장하지 않는다. 그래서 다른 형태의 데이터를 쓰더라도 오류가 발생하지는 않는다.
데이터 레이크 하우스란?
- 데이터 레이크 장점을 유지면서 기존 데이터 웨어하우스 장점(Datalake 단점을 보완)을 조합한 신규 아키텍처이다.
- 데이터 레이크하우스는 기존에 활용하던 Object Storage 위에 데이터 레이크하우스 모듈을 적용하여 구축할 수 있다.
데이터 레이크하우스 기반 기술
- Deltalake
- ACID 트랜젝션 지원
- Batch + Stream 통합
- 스키마 정합성 보장
- Time Travel : 스키마 단위 버저닝을 통해 이전 데이터에 대한 조회 및 rollback 기능 제공
- Hudi
- Iceberge
감사합니다 🙂
문의: info@bespinglobal.com | 대표번호: 02-1668-1280