Datahub(오픈 소스 메타데이터 플랫폼)

안녕하세요 오늘은 BESPIN GLOBAL AI실 최주성님이 작성해주신 ‘Datahub(오픈 소스 메타데이터 플랫폼)’에 대해 소개해드리도록 하겠습니다.

목차

  1. 메타데이터 플랫폼의 필요성
  2. DataHub란?
  3. 대표적인 기능 목록

1. 메타데이터 플랫폼의 필요성

  • BigQuery, MS SQL, MySQL등 다양한 플랫폼으로 데이터들이 분산되어 있어 각 데이터들을 관리할 수 있는 플랫폼의 필요성이 대두되었습니다.
  • 각 데이터 플랫폼들의 메타데이터를 통한 관리로 통합 플랫폼 구축의 필요성이 대두되었습니다.

2. Datahub란?

  • 다양한 플랫폼의 데이터들로부터 메타데이터를 손쉽게 추출하여 관리 가능한 오픈 소스 메타데이터 플랫폼

3. 대표적인 기능 목록

3-1. 검색 및 발견

3-1-1. 검색 및 탐색

  • 데이터베이스, 데이터 레이크, BI 플랫폼, ML 기능 저장소, 조정 도구 등 전반에 걸쳐 결과를 제공
데이터베이스, 데이터 레이크, BI 플랫폼, ML 기능 저장소, 조정 도구 등 전반에 걸쳐 결과를 제공

3-1-2.엔드 투 엔드 계보 추적

  • 플랫폼, 데이터 세트, ETL/ELT 파이프라인, 차트, 대시보드 등 전반에 걸쳐 계보를 추적합니다.
  • 리니지를 비쥬얼하게 제공. 데이터의 원천데이터가 무엇인지 해당 데이터로 인해 파생된 데이터가 무엇인지 추적이 가능하며 한 눈에 비쥬얼로 이해할 수 있습니다.
리니지를 비쥬얼하게 제공. 데이터의 원천데이터가 무엇인지 해당 데이터로 인해 파생된 데이터가 무엇인지 추적이 가능하며 한 눈에 비쥬얼로 이해할 수 있다.

3-1-3. 다운스트림 종속성에 대한 주요 변경 사항의 영향 이해

  • 영향 분석을 사용하여 주요 변경으로 인해 영향을 받을 수 있는 엔터티를 사전에 식별이 가능합니다.
  • 예) 예를 들어 Tag 정보를 변경하면 아래의 이미지에서 1개의 데이터셋이 영향 받는 걸 사전에 알 수 있습니다.

예) 예를 들어 Tag 정보를 변경하면 아래의 이미지에서 1개의 데이터셋이 영향 받는 걸 사전에 알 수 있음

3-1-4. Metadata 360을 한 눈 제공

  • 기술적 및 논리적 메타데이터를 결합하여 360° 제공 데이터 항목을 제공합니다.
  • 데이터플랫폼의 테이블 정보를 자동으로 메타데이터로 분류하여 한 눈에 볼 수 있도록 제공합니다.

데이터플랫폼의 테이블 정보를 자동으로 메타데이터로 분류하여 한 눈에 볼 수 있도록 제공한다.

3-2. 최신 데이터 거버넌스

3-2-1. 실시간 거버넌스

  • 알림: DataHub에 변경 사항이 있을 때 조직별 알림을 생성합니다. 예를 들어 “PII” 태그는 모든 데이터 자산에 추가됩니다.
  • 워크플로 통합: DataHub를 조직의 내부 워크플로에 통합합니다. 예를 들어 데이터세트에 특정 태그나 용어가 제안되면 Jira 티켓을 만드세요.
  • 동기화: DataHub에서 변경된 내용을 타사 시스템에 동기화합니다. 예를 들어 DataHub에 추가된 태그를 Snowflake에 반영합니다.
  • 감사: 시간이 지남에 따라 DataHub에서 누가 어떤 변경을 하는지 감사합니다.

3-2-2. 엔터티 소유권 관리

  • 사용자 및 사용자 그룹에 엔터티 소유권을 빠르고 쉽게 할당

사용자 및 사용자 그룹에 엔터티 소유권을 빠르고 쉽게 할당

3-2-3. 태그, 용어집, 도메인으로 관리

  • 태그: 검색 및 검색 도구 역할을 하는 비공식적이고 느슨하게 제어되는 라벨입니다. 발견. 공식적인 중앙 관리가 없습니다.
  • 용어집: 핵심 비즈니스 개념과 측정을 설명하는 데 일반적으로 사용되는 선택적인 계층 구조가 있는 통제된 어휘입니다.
  • 도메인: 부서(예: 재무, 마케팅) 또는 데이터 제품별로 엔터티를 구성하기 위해 Data Mesh에서 널리 사용되는 선별된 최상위 폴더 또는 카테고리입니다.

2.3. 태그, 용어집, 도메인으로 관리

3-3. Datahub 관리

3-3-1. 사용자, 그룹, 액세스 정책 지원

  • 4가지 기능 제공하며 Access Tokens 기능 지원
  • 정책 유형 – 플랫폼(최상위 DataHub 플랫폼 권한, 즉 사용자, 그룹, 정책 관리) 또는 메타데이터(소유권, 태그, 문서 등을 조작하는 능력) )
  • 리소스 유형 – 데이터 세트, 대시보드, 파이프라인 등의 리소스 유형을 지정합니다.
  • 권한 – 소유자 편집, 문서 편집, 링크 편집 등의 권한 집합을 선택합니다.
  • 사용자 및/또는 그룹 – 관련 사용자 및 그룹을 할당합니다. 또한 속한 그룹에 관계없이 리소스 소유자에게 정책을 할당할 수도 있습니다.

3.1. 사용자, 그룹, 액세스 정책 지원

3-3-2. UI에서 메타데이터 수집 기능 지원

  • 32개의 데이터 플랫폼을 지원합니다.
  • 항목에 없는 데이터 플랫폼은 custom 설정 지원이 가능합니다.

3.2. UI에서 메타데이터 수집 기능 지원

여기까지 ‘Datahub(오픈 소스 메타데이터 플랫폼)’에 대해 소개해드렸습니다. 유익한 정보가 되셨길 바랍니다. 감사합니다. 

Written by 최 준성/ AI실

BESPIN GLOBAL