BESPIN Tech Blog
  • Home
  • Tech
    • CSP

      AWS

      GCP

      NCP

      Cloud

      Migration

      LZ, Control Tower

      Backup

      Monitoring

      Container

      Infra

      OS

      Middleware

      Data

      RDB

      Big Data Platform

      Application

      CI/CD

      BESPICK 구독하기 ㅣ 1668-1280

  • Trend
  • IT
최신 리포트 다운로드 지금 바로 문의하기
BESPIN Tech Blog
  • Home
  • Tech
    • CSP

      AWS

      GCP

      NCP

      Cloud

      Migration

      LZ, Control Tower

      Backup

      Monitoring

      Container

      Infra

      OS

      Middleware

      Data

      RDB

      Big Data Platform

      Application

      CI/CD

      BESPICK 구독하기 ㅣ 1668-1280

  • Trend
  • IT
최신 리포트 다운로드 지금 바로 문의하기
BESPIN Tech Blog
BESPIN Tech Blog
  • Tech
    • CSP
      • AWS
      • GCP
      • NCP
    • Cloud
      • Migration
      • LZ, Control Tower
      • Backup
      • Monitoring
      • Container
    • Infra
      • OS
      • Middleware
    • Data
      • RDB
      • Big Data Platform
    • Application
      • CI/CD
  • Trend
  • IT
  • Contact US
Big Data Platform

Spark 4편 – Broadcast

by 민우 서 2025년 03월 27일
2025년 03월 27일
15

안녕하세요 오늘은 BESPIN GLOBAL Data실 한제호님이 작성해주신 ‘Spark 4편 – Broadcast’에 대해 소개해드리도록 하겠습니다.

목차
1. Braoadcast 기능
2. 사례
3. Broadcast 사용
4. 자동 감지

1. Broadcast 기능

  • Spark에서 성능 최적화를 하는 가장 좋은 방법은 노드간의 데이터 이동(셔플)을 최소화 하는 것입니다. Broadcast는 지정된 데이터셋 또는 변수를 모든 노드에 복사하여 셔플을 최소화 하는 방안중에 하나입니다.
  • Broadcast Variables
    • 셔플 최소화를 위해 데이터를 직렬화하여 모든 작업자 노드의 메모리에 로딩
    • 읽기 전용 데이터이며 broadcast variable 생성 이후에는 데이터 변경이 불가함
    • 메모리에 올라가기 때문에 cache() 기능과 같이 많이 사용되지 않는 경우에는 적용을 피해야함
  • Broadcast Join
    • broadcast variable를 한번만 사용해도 유용할 수 있는 기능
    • 데이터 크기가 작은 dataframe에 대해 해당 기능을 통해 join 속도를 높일 수 있음
데이터 크기가 작은 dataframe에 대해 해당 기능을 통해 join 속도를 높일 수 있음

2. 사례

  • broadcast 미사용 시
    • join 시 15초의 시간 소요
join 시 15초의 시간 소요
  • 실행 계획
실행 계획

3. Broadcast 사용

  • join시 0.7초 소요
join시 0.7초 소요
  • 실행 계획
실행 계획

4. 자동 감지

  • Spark의 경우 옵티마이저를 통해 자동으로 broadcast를 감지할 수 있습니다/
Spark의 경우 옵티마이저를 통해 자동으로 broadcast를 감지할 수 있습니다/
자동 broadcast 조건
  • 자동 broadcast 조건
    • spark.sql.autoBroadcastJoinThreshold 옵션에 정해진 용량 이하(Default: 10MB)
    • 데이터를 처음부터 구성합니다. e.g. spark.range
    • 스키마 및 크기 정보가 있는 파일에서 읽는 경우 e.g. parquet (csv나 json의 경우 스키마 또는 통계정보가 없기 때문에 대상 아님)

여기까지 ‘’Spark 4편 – Broadcast’에 대해 소개해드렸습니다. 유익한 정보가 되셨길 바랍니다. 감사합니다. 

Written by 한 제호 / Data실

BESPIN GLOBAL

관련

최적화SparkBroadcast

HOT Trend

Recent Posts

  • 딜로이트도, 맥킨지도, 베스핀글로벌도: AI 에이전트로 일 바꾸는 시대

    2025년 07월 04일 클라우드베스핀글로벌clouddata데이터AI인공지능HelpNow AIbespinglobalAI에이전트helpnow업무자동화딜로이트
  • ⚔️데이터센터에서 시작된 전쟁? 요즘 뜨는 AIDC 개념부터 트렌드까지!

    2025년 06월 27일 클라우드clouddata데이터AI데이터센터클라우드 데이터센터bespinglobalAIDCAI 인프라베스핀글로벌
  • 구글부터 엔비디아까지, 빅테크 기업들의 AI 전략 최신본📖

    2025년 06월 20일 cloud베스핀글로벌클라우드data데이터AI구글마이크로소프트엔비디아AI에이전트google I/ONVIDIA GTC 2025Microsoft build 2025
  • AI를 연결한다고? 업계가 주목하는 ‘MCP’ 알아보기🔍

    2025년 06월 13일 베스핀글로벌클라우드cloudAIMCP
  • [WhaTap] RDS Failover/Reboot 관제 2 – RDS Failover

    2025년 05월 30일 RDSRDS FailoverRebootFailoverbespin global

베스핀글로벌은 모든 기업의 AI 혁신을 실현하기 위해, 세상에서 가장 혁신적이고 자동화된 AI 서비스와 솔루션을 만들어갑니다.
상호 : 베스핀글로벌 주식회사 ㅣ 대표자명 : 김써니, 허양호 ㅣ 사업자등록증번호 : 638-87-00223 ㅣ 통신판매번호 : 2019-서울서초-0347 ㅣ 대표전화 : 1668-1280
사업장주소지 : 서울특별시 서초구 강남대로 327, 13,14,15,16층(서초동,대륭서초타워) ㅣ 이메일 : info@bespinglobal.com ㅣ 개인정보 처리방침 ㅣ 개인정보 처리방침 안내

© 2026 BESPIN GLOBAL, All Rights Reserved.

BESPINGLOBAL
패밀리 사이트
China MEA SEA US

BESPIN Tech Blog
  • Home
  • Tech
    • CSP

      AWS

      GCP

      NCP

      Cloud

      Migration

      LZ, Control Tower

      Backup

      Monitoring

      Container

      Infra

      OS

      Middleware

      Data

      RDB

      Big Data Platform

      Application

      CI/CD

      BESPICK 구독하기 ㅣ 1668-1280

  • Trend
  • IT