[2023 AWS re:Invent] What’s new with Amazon EMR and Amazon Athena

세션명

What’s new with Amazon EMR and Amazon Athena

강연자
  • Benita Anant
핵심 내용 요약
  • 2023 Amazon EMR 신규 기능 소개
  • 최신 Runtime 적용
  • OSS 신규 버전 빠른 적용
  • 배포 버전별 신규 기능 소개
  • EMR Serverless
  • EMR on EC2
  • EMR on EKS
  • LDAP 통합
세션 키워드
  1. EMR 성능 개선
  2. EMR 비용 최적화
  3. LDAP 통합
세션 요약자

베스핀글로벌 PS본부 D&A실 한제호 님

  • 최신 버전의 오픈 소스 제공: AWS는 최대 90일 이내에 최신 기능 제공을 위한 노력 및 다양한 오픈 소스 테이블 형태를 제공
  • 데이터 분석에 있어 더 나은 가격 대비 성능을 제공하는데 중점을 두고 있음
  • 다양한 플랫폼 제공: 배치, 스트리밍, 대화형 노트북 및 SQL
  • 데이터 접근 제어를 위한 다양한 거버넌스 기능 제공

  • EMR 코어 엔진 성능 개선에 노력, 매번 버전업을 통해 수배의 성능 개선 효과를 가져왔음
  • EMR에서는 인기 있는 오픈 테이블 형태를 모두 제공

  • EMR은 빅데이터 워크로드에 최적화된 EC2 타입(C7G, C6G) 인스턴스를 지원하며 최대 20% 성능 향상, 15% 비용 최적화 가능

  • S3는 성능 최적화를 위해 Express One Zone이라는 새로운 클래스 타입을 제공, 해당 버킷 타입을 사용하는 경우 EMR과의 조합시 성능 및 비용 최적화를 효과를 가져올 수 있음

EMR은 워크로드 및 사용자의 요구사항에 따라 3가지 배포 옵션을 제공

  • EMR Serverless
    • 가장 빠르게 확장되고 있는 서비스
    • 고객의 운영 오버헤드를 최소한으로 가져가고 싶다면 선택할 수 있는 배포 옵션
    • SparkMagic 및 IPython 기능을 통해 대화형 데이터 분석 기능 활용 가능
    • CodeWhisperer 코드 추천 기능을 통한 강력한 노트북 사용 가능

[EMR Serverless 관련 2023년도 출시한 주요 기능 요약]

  • EMR on EC2
    • EMR 관련하여 가장 많이 활용하고 있는 서비스
    • 고객의 가장 많은 개선 요청이 있었던 요구사항
    • Fleet 모드 활용시 기본 노드 장애가 발생할 경우 대기 노드로 장애 조치
    • 클러스터 생성시 활성 노드 1개와 대기노드 2개를 기본적으로 제공 예정
    • Fleet 모드로 활용할 수 있는 인스턴트 타입도 다양하게 증가 예정

[EMR on EC2 관련 2023년도 출시한 기능 요약]

  • 특히 Spot Instance 선택에 있어 가격 상한제, 가격 용량 옵션에 대한 추가 기능 제공
  • 클러스터 시작 시간 35% 향상
  • EMR on EKS
    • Amazon EKS에서 EMR 오픈소스 프레임워크를 실행할 수 있는 배포 옵션
    • Pod별로 메모리와 CPU를 자동으로 구성하고 부하에 따라 컨테이너를 동적으로 수직 확장하여 클러스터 관리의 편의성을 높임
    (이미 수평적 스케일링을 사용하고 있는 경우 해당 옵션 추가로 워크로드의 효율성을 좀 더 향상 시킬 수 있음)
    • 스트리밍 데이터 처리를 위해 EMR 6.13버전 부터는 EKS에서도 Flink Application를 활용

[EMR on EKS 관련 2023년도 출시한 기능 요약]

  • 기본 LDAP 통합에 대한 지원 시작
  • 기존 : EMR 클러스터 구성 후 Application별로 통합구성을 따로 해야 했기 때문에 해당 구성을 위해 많은 리소스 투입
  • 향후 : EMR 클러스터 구성시 LDAP 통합으로 클러스터를 구성하게 되면(보안구성에서..)
    Apache Livy, Hive Server, Hue, Presto등 지원되는 모든 어플리케이션에서 클러스터와 상호 작성할 수 있도록 구성 가능

Bespin’s Comment

올해 출시된 EMR 신규 기능은 대부분 성능, 가용성, 비용 최적화에 집중되어 있는 모습을 보이고 있으며 Hadoop 기반의 오픈 소스들에 대한 신규 버전을 EMR에 최단 시간 적용하기 위해 집중적으로 포커스를 하고 있는 것으로 판단됩니다.

Written by 한 제호 / Jeho Han

Cloud Engineer