BESPIN Tech Blog
  • Home
  • Tech
    • CSP

      AWS

      GCP

      NCP

      Cloud

      Migration

      LZ, Control Tower

      Backup

      Monitoring

      Container

      Infra

      OS

      Middleware

      Data

      RDB

      Big Data Platform

      Application

      CI/CD

      BESPICK 구독하기 ㅣ 1668-1280

  • Trend
  • IT
최신 리포트 다운로드 지금 바로 문의하기
BESPIN Tech Blog
  • Home
  • Tech
    • CSP

      AWS

      GCP

      NCP

      Cloud

      Migration

      LZ, Control Tower

      Backup

      Monitoring

      Container

      Infra

      OS

      Middleware

      Data

      RDB

      Big Data Platform

      Application

      CI/CD

      BESPICK 구독하기 ㅣ 1668-1280

  • Trend
  • IT
최신 리포트 다운로드 지금 바로 문의하기
BESPIN Tech Blog
BESPIN Tech Blog
  • Tech
    • CSP
      • AWS
      • GCP
      • NCP
    • Cloud
      • Migration
      • LZ, Control Tower
      • Backup
      • Monitoring
      • Container
    • Infra
      • OS
      • Middleware
    • Data
      • RDB
      • Big Data Platform
    • Application
      • CI/CD
  • Trend
  • IT
  • Contact US
ABOUTApplication

Datahub(오픈 소스 메타데이터 플랫폼)

by 민우 서 2025년 04월 04일
2025년 04월 04일
32

안녕하세요 오늘은 BESPIN GLOBAL AI실 최주성님이 작성해주신 ‘Datahub(오픈 소스 메타데이터 플랫폼)’에 대해 소개해드리도록 하겠습니다.

목차

  1. 메타데이터 플랫폼의 필요성
  2. DataHub란?
  3. 대표적인 기능 목록

1. 메타데이터 플랫폼의 필요성

  • BigQuery, MS SQL, MySQL등 다양한 플랫폼으로 데이터들이 분산되어 있어 각 데이터들을 관리할 수 있는 플랫폼의 필요성이 대두되었습니다.
  • 각 데이터 플랫폼들의 메타데이터를 통한 관리로 통합 플랫폼 구축의 필요성이 대두되었습니다.

2. Datahub란?

  • 다양한 플랫폼의 데이터들로부터 메타데이터를 손쉽게 추출하여 관리 가능한 오픈 소스 메타데이터 플랫폼

3. 대표적인 기능 목록

3-1. 검색 및 발견

3-1-1. 검색 및 탐색

  • 데이터베이스, 데이터 레이크, BI 플랫폼, ML 기능 저장소, 조정 도구 등 전반에 걸쳐 결과를 제공
데이터베이스, 데이터 레이크, BI 플랫폼, ML 기능 저장소, 조정 도구 등 전반에 걸쳐 결과를 제공

3-1-2.엔드 투 엔드 계보 추적

  • 플랫폼, 데이터 세트, ETL/ELT 파이프라인, 차트, 대시보드 등 전반에 걸쳐 계보를 추적합니다.
  • 리니지를 비쥬얼하게 제공. 데이터의 원천데이터가 무엇인지 해당 데이터로 인해 파생된 데이터가 무엇인지 추적이 가능하며 한 눈에 비쥬얼로 이해할 수 있습니다.
리니지를 비쥬얼하게 제공. 데이터의 원천데이터가 무엇인지 해당 데이터로 인해 파생된 데이터가 무엇인지 추적이 가능하며 한 눈에 비쥬얼로 이해할 수 있다.

3-1-3. 다운스트림 종속성에 대한 주요 변경 사항의 영향 이해

  • 영향 분석을 사용하여 주요 변경으로 인해 영향을 받을 수 있는 엔터티를 사전에 식별이 가능합니다.
  • 예) 예를 들어 Tag 정보를 변경하면 아래의 이미지에서 1개의 데이터셋이 영향 받는 걸 사전에 알 수 있습니다.

예) 예를 들어 Tag 정보를 변경하면 아래의 이미지에서 1개의 데이터셋이 영향 받는 걸 사전에 알 수 있음

3-1-4. Metadata 360을 한 눈 제공

  • 기술적 및 논리적 메타데이터를 결합하여 360° 제공 데이터 항목을 제공합니다.
  • 데이터플랫폼의 테이블 정보를 자동으로 메타데이터로 분류하여 한 눈에 볼 수 있도록 제공합니다.

데이터플랫폼의 테이블 정보를 자동으로 메타데이터로 분류하여 한 눈에 볼 수 있도록 제공한다.

3-2. 최신 데이터 거버넌스

3-2-1. 실시간 거버넌스

  • 알림: DataHub에 변경 사항이 있을 때 조직별 알림을 생성합니다. 예를 들어 “PII” 태그는 모든 데이터 자산에 추가됩니다.
  • 워크플로 통합: DataHub를 조직의 내부 워크플로에 통합합니다. 예를 들어 데이터세트에 특정 태그나 용어가 제안되면 Jira 티켓을 만드세요.
  • 동기화: DataHub에서 변경된 내용을 타사 시스템에 동기화합니다. 예를 들어 DataHub에 추가된 태그를 Snowflake에 반영합니다.
  • 감사: 시간이 지남에 따라 DataHub에서 누가 어떤 변경을 하는지 감사합니다.

3-2-2. 엔터티 소유권 관리

  • 사용자 및 사용자 그룹에 엔터티 소유권을 빠르고 쉽게 할당

사용자 및 사용자 그룹에 엔터티 소유권을 빠르고 쉽게 할당

3-2-3. 태그, 용어집, 도메인으로 관리

  • 태그: 검색 및 검색 도구 역할을 하는 비공식적이고 느슨하게 제어되는 라벨입니다. 발견. 공식적인 중앙 관리가 없습니다.
  • 용어집: 핵심 비즈니스 개념과 측정을 설명하는 데 일반적으로 사용되는 선택적인 계층 구조가 있는 통제된 어휘입니다.
  • 도메인: 부서(예: 재무, 마케팅) 또는 데이터 제품별로 엔터티를 구성하기 위해 Data Mesh에서 널리 사용되는 선별된 최상위 폴더 또는 카테고리입니다.

2.3. 태그, 용어집, 도메인으로 관리

3-3. Datahub 관리

3-3-1. 사용자, 그룹, 액세스 정책 지원

  • 4가지 기능 제공하며 Access Tokens 기능 지원
  • 정책 유형 – 플랫폼(최상위 DataHub 플랫폼 권한, 즉 사용자, 그룹, 정책 관리) 또는 메타데이터(소유권, 태그, 문서 등을 조작하는 능력) )
  • 리소스 유형 – 데이터 세트, 대시보드, 파이프라인 등의 리소스 유형을 지정합니다.
  • 권한 – 소유자 편집, 문서 편집, 링크 편집 등의 권한 집합을 선택합니다.
  • 사용자 및/또는 그룹 – 관련 사용자 및 그룹을 할당합니다. 또한 속한 그룹에 관계없이 리소스 소유자에게 정책을 할당할 수도 있습니다.

3.1. 사용자, 그룹, 액세스 정책 지원

3-3-2. UI에서 메타데이터 수집 기능 지원

  • 32개의 데이터 플랫폼을 지원합니다.
  • 항목에 없는 데이터 플랫폼은 custom 설정 지원이 가능합니다.

3.2. UI에서 메타데이터 수집 기능 지원

여기까지 ‘Datahub(오픈 소스 메타데이터 플랫폼)’에 대해 소개해드렸습니다. 유익한 정보가 되셨길 바랍니다. 감사합니다. 

Written by 최 준성/ AI실

BESPIN GLOBAL

관련

소스Datahub메타데이터플랫폼

HOT Trend

Recent Posts

  • 딜로이트도, 맥킨지도, 베스핀글로벌도: AI 에이전트로 일 바꾸는 시대

    2025년 07월 04일 클라우드베스핀글로벌clouddata데이터AI인공지능HelpNow AIbespinglobalAI에이전트helpnow업무자동화딜로이트
  • ⚔️데이터센터에서 시작된 전쟁? 요즘 뜨는 AIDC 개념부터 트렌드까지!

    2025년 06월 27일 클라우드clouddata데이터AI데이터센터클라우드 데이터센터bespinglobalAIDCAI 인프라베스핀글로벌
  • 구글부터 엔비디아까지, 빅테크 기업들의 AI 전략 최신본📖

    2025년 06월 20일 cloud베스핀글로벌클라우드data데이터AI구글마이크로소프트엔비디아AI에이전트google I/ONVIDIA GTC 2025Microsoft build 2025
  • AI를 연결한다고? 업계가 주목하는 ‘MCP’ 알아보기🔍

    2025년 06월 13일 베스핀글로벌클라우드cloudAIMCP
  • [WhaTap] RDS Failover/Reboot 관제 2 – RDS Failover

    2025년 05월 30일 RDSRDS FailoverRebootFailoverbespin global

베스핀글로벌은 모든 기업의 AI 혁신을 실현하기 위해, 세상에서 가장 혁신적이고 자동화된 AI 서비스와 솔루션을 만들어갑니다.
상호 : 베스핀글로벌 주식회사 ㅣ 대표자명 : 김써니, 허양호 ㅣ 사업자등록증번호 : 638-87-00223 ㅣ 통신판매번호 : 2019-서울서초-0347 ㅣ 대표전화 : 1668-1280
사업장주소지 : 서울특별시 서초구 강남대로 327, 13,14,15,16층(서초동,대륭서초타워) ㅣ 이메일 : info@bespinglobal.com ㅣ 개인정보 처리방침 ㅣ 개인정보 처리방침 안내

© 2026 BESPIN GLOBAL, All Rights Reserved.

BESPINGLOBAL
패밀리 사이트
China MEA SEA US

BESPIN Tech Blog
  • Home
  • Tech
    • CSP

      AWS

      GCP

      NCP

      Cloud

      Migration

      LZ, Control Tower

      Backup

      Monitoring

      Container

      Infra

      OS

      Middleware

      Data

      RDB

      Big Data Platform

      Application

      CI/CD

      BESPICK 구독하기 ㅣ 1668-1280

  • Trend
  • IT