안녕하세요 오늘은 BESPIN GLOBAL AI실 최주성님이 작성해주신 ‘Datahub(오픈 소스 메타데이터 플랫폼)’에 대해 소개해드리도록 하겠습니다.
목차
- 메타데이터 플랫폼의 필요성
- DataHub란?
- 대표적인 기능 목록
1. 메타데이터 플랫폼의 필요성
- BigQuery, MS SQL, MySQL등 다양한 플랫폼으로 데이터들이 분산되어 있어 각 데이터들을 관리할 수 있는 플랫폼의 필요성이 대두되었습니다.
- 각 데이터 플랫폼들의 메타데이터를 통한 관리로 통합 플랫폼 구축의 필요성이 대두되었습니다.
2. Datahub란?
- 다양한 플랫폼의 데이터들로부터 메타데이터를 손쉽게 추출하여 관리 가능한 오픈 소스 메타데이터 플랫폼
3. 대표적인 기능 목록
3-1. 검색 및 발견
3-1-1. 검색 및 탐색
- 데이터베이스, 데이터 레이크, BI 플랫폼, ML 기능 저장소, 조정 도구 등 전반에 걸쳐 결과를 제공

3-1-2.엔드 투 엔드 계보 추적
- 플랫폼, 데이터 세트, ETL/ELT 파이프라인, 차트, 대시보드 등 전반에 걸쳐 계보를 추적합니다.
- 리니지를 비쥬얼하게 제공. 데이터의 원천데이터가 무엇인지 해당 데이터로 인해 파생된 데이터가 무엇인지 추적이 가능하며 한 눈에 비쥬얼로 이해할 수 있습니다.

3-1-3. 다운스트림 종속성에 대한 주요 변경 사항의 영향 이해
- 영향 분석을 사용하여 주요 변경으로 인해 영향을 받을 수 있는 엔터티를 사전에 식별이 가능합니다.
- 예) 예를 들어 Tag 정보를 변경하면 아래의 이미지에서 1개의 데이터셋이 영향 받는 걸 사전에 알 수 있습니다.

3-1-4. Metadata 360을 한 눈 제공
- 기술적 및 논리적 메타데이터를 결합하여 360° 제공 데이터 항목을 제공합니다.
- 데이터플랫폼의 테이블 정보를 자동으로 메타데이터로 분류하여 한 눈에 볼 수 있도록 제공합니다.

3-2. 최신 데이터 거버넌스
3-2-1. 실시간 거버넌스
- 알림: DataHub에 변경 사항이 있을 때 조직별 알림을 생성합니다. 예를 들어 “PII” 태그는 모든 데이터 자산에 추가됩니다.
- 워크플로 통합: DataHub를 조직의 내부 워크플로에 통합합니다. 예를 들어 데이터세트에 특정 태그나 용어가 제안되면 Jira 티켓을 만드세요.
- 동기화: DataHub에서 변경된 내용을 타사 시스템에 동기화합니다. 예를 들어 DataHub에 추가된 태그를 Snowflake에 반영합니다.
- 감사: 시간이 지남에 따라 DataHub에서 누가 어떤 변경을 하는지 감사합니다.
3-2-2. 엔터티 소유권 관리
- 사용자 및 사용자 그룹에 엔터티 소유권을 빠르고 쉽게 할당

3-2-3. 태그, 용어집, 도메인으로 관리
- 태그: 검색 및 검색 도구 역할을 하는 비공식적이고 느슨하게 제어되는 라벨입니다. 발견. 공식적인 중앙 관리가 없습니다.
- 용어집: 핵심 비즈니스 개념과 측정을 설명하는 데 일반적으로 사용되는 선택적인 계층 구조가 있는 통제된 어휘입니다.
- 도메인: 부서(예: 재무, 마케팅) 또는 데이터 제품별로 엔터티를 구성하기 위해 Data Mesh에서 널리 사용되는 선별된 최상위 폴더 또는 카테고리입니다.

3-3. Datahub 관리
3-3-1. 사용자, 그룹, 액세스 정책 지원
- 4가지 기능 제공하며 Access Tokens 기능 지원
- 정책 유형 – 플랫폼(최상위 DataHub 플랫폼 권한, 즉 사용자, 그룹, 정책 관리) 또는 메타데이터(소유권, 태그, 문서 등을 조작하는 능력) )
- 리소스 유형 – 데이터 세트, 대시보드, 파이프라인 등의 리소스 유형을 지정합니다.
- 권한 – 소유자 편집, 문서 편집, 링크 편집 등의 권한 집합을 선택합니다.
- 사용자 및/또는 그룹 – 관련 사용자 및 그룹을 할당합니다. 또한 속한 그룹에 관계없이 리소스 소유자에게 정책을 할당할 수도 있습니다.

3-3-2. UI에서 메타데이터 수집 기능 지원
- 32개의 데이터 플랫폼을 지원합니다.
- 항목에 없는 데이터 플랫폼은 custom 설정 지원이 가능합니다.

여기까지 ‘Datahub(오픈 소스 메타데이터 플랫폼)’에 대해 소개해드렸습니다. 유익한 정보가 되셨길 바랍니다. 감사합니다.
Written by 최 준성/ AI실
BESPIN GLOBAL