BESPIN Tech Blog
  • Home
  • Tech
    • CSP

      AWS

      GCP

      NCP

      Cloud

      Migration

      LZ, Control Tower

      Backup

      Monitoring

      Container

      Infra

      OS

      Middleware

      Data

      RDB

      Big Data Platform

      Application

      CI/CD

      BESPICK 구독하기 ㅣ 1668-1280

  • Trend
  • IT
최신 리포트 다운로드 지금 바로 문의하기
BESPIN Tech Blog
  • Home
  • Tech
    • CSP

      AWS

      GCP

      NCP

      Cloud

      Migration

      LZ, Control Tower

      Backup

      Monitoring

      Container

      Infra

      OS

      Middleware

      Data

      RDB

      Big Data Platform

      Application

      CI/CD

      BESPICK 구독하기 ㅣ 1668-1280

  • Trend
  • IT
최신 리포트 다운로드 지금 바로 문의하기
BESPIN Tech Blog
BESPIN Tech Blog
  • Tech
    • CSP
      • AWS
      • GCP
      • NCP
    • Cloud
      • Migration
      • LZ, Control Tower
      • Backup
      • Monitoring
      • Container
    • Infra
      • OS
      • Middleware
    • Data
      • RDB
      • Big Data Platform
    • Application
      • CI/CD
  • Trend
  • IT
  • Contact US
Big Data Platform

Spark 2편 – Caching 및 Persist

by 민우 서 2025년 03월 25일
2025년 03월 25일
8

안녕하세요 오늘은 BESPIN GLOBAL Data실 한제호님이 작성해주신 ‘Spark 2편 – Caching 및 Persist’ 에 대해 소개해드리도록 하겠습니다.

목차
1. Caching 및 Persist
2. spill over
3. 해결 방안

1. Caching 및 Persist

    • Caching 및 Persist 함수를 통해 다양한 방식으로 데이터 세트를 메모리에 저장합니다.
    • 하나의 RDD 또는 Dataframe을 중복적으로 활용하는 케이스에 적합합니다.
    • Cache() : 메모리 전용 또는 메모리와 디스크 병행 활용
    • Persist(): 아래 나열된 값을 통해 활용
    Caching 및 Persist

    2. spill over

    • Spark에서 RDD를 cache해서 저장할 수 있는 공간은 한정적입니다.
    • 과도한 RDD Caching은 오히려 디스크 spill over로 인해 느려질 수 있습니다.
    spill over
    • 디스크 spill over 케이스 (Spark UI >> Storage) – spark.eventLog.logBlockUpdates.enabled 옵션 true로 활성화
    • Storage Memory 부족으로 인해 일부 RDD는 스토리지에 저장될 수 있음
    • 해당 케이스의 경우 오히려 cache를 사용하지 않을때보다 더 느려질 수 있음
    해당 케이스의 경우 오히려 cache를 사용하지 않을때보다 더 느려질 수 있음

    3. 해결 방안

    • 메모리 증가
      • Executor 메모리를 늘린다. → spark.executor.memory
      • Heap 메모리상의 storage 메모리 비율을 조정한다. → spark.memory.storageFraction
    • Cache Clear을 통해 사용하지 않는 Cache 해제 → unpersist()
    • 파티션 재 정렬(repartition)를 통해 메모리에 저장된 RDD의 비율을 높인다.
      • Storage Memory에는 rdd 단위로 저장되기 때문에 상황에 따라 데이터량이 적은 RDD가 메모리에 저장되게 되면 많은 수의 데이터를 스토리지에서 읽어야함

    여기까지 ‘Spark 2편 – Caching 및 Persist’에 대해 소개해드렸습니다. 유익한 정보가 되셨길 바랍니다. 감사합니다. 

    Written by 한 제호 / Data실

    BESPIN GLOBAL

    관련

    dataSparkCachingPersist

    HOT Trend

    Recent Posts

    • 딜로이트도, 맥킨지도, 베스핀글로벌도: AI 에이전트로 일 바꾸는 시대

      2025년 07월 04일 클라우드베스핀글로벌clouddata데이터AI인공지능HelpNow AIbespinglobalAI에이전트helpnow업무자동화딜로이트
    • ⚔️데이터센터에서 시작된 전쟁? 요즘 뜨는 AIDC 개념부터 트렌드까지!

      2025년 06월 27일 클라우드clouddata데이터AI데이터센터클라우드 데이터센터bespinglobalAIDCAI 인프라베스핀글로벌
    • 구글부터 엔비디아까지, 빅테크 기업들의 AI 전략 최신본📖

      2025년 06월 20일 cloud베스핀글로벌클라우드data데이터AI구글마이크로소프트엔비디아AI에이전트google I/ONVIDIA GTC 2025Microsoft build 2025
    • AI를 연결한다고? 업계가 주목하는 ‘MCP’ 알아보기🔍

      2025년 06월 13일 베스핀글로벌클라우드cloudAIMCP
    • [WhaTap] RDS Failover/Reboot 관제 2 – RDS Failover

      2025년 05월 30일 RDSRDS FailoverRebootFailoverbespin global

    베스핀글로벌은 모든 기업의 AI 혁신을 실현하기 위해, 세상에서 가장 혁신적이고 자동화된 AI 서비스와 솔루션을 만들어갑니다.
    상호 : 베스핀글로벌 주식회사 ㅣ 대표자명 : 김써니, 허양호 ㅣ 사업자등록증번호 : 638-87-00223 ㅣ 통신판매번호 : 2019-서울서초-0347 ㅣ 대표전화 : 1668-1280
    사업장주소지 : 서울특별시 서초구 강남대로 327, 13,14,15,16층(서초동,대륭서초타워) ㅣ 이메일 : info@bespinglobal.com ㅣ 개인정보 처리방침 ㅣ 개인정보 처리방침 안내

    © 2026 BESPIN GLOBAL, All Rights Reserved.

    BESPINGLOBAL
    패밀리 사이트
    China MEA SEA US

    BESPIN Tech Blog
    • Home
    • Tech
      • CSP

        AWS

        GCP

        NCP

        Cloud

        Migration

        LZ, Control Tower

        Backup

        Monitoring

        Container

        Infra

        OS

        Middleware

        Data

        RDB

        Big Data Platform

        Application

        CI/CD

        BESPICK 구독하기 ㅣ 1668-1280

    • Trend
    • IT