[2022 AWS re:Invent] Introducing AWS Inferentia2-based Amazon EC2 Inf2 instances

세션 유형

Break out

세션명

Introducing AWS Inferentia2-based Amazon EC2 Inf2 instances

강연자

Ben Perak, Tatiana Cooke

세션요약자

조영욱(Youngwook Cho)

핵심내용 요약
  • AWS 에서 설계한 세 번째 DL (Deep Learning)
  • Inf1 Typoe 대비 최대 4배 높은 처리량 및 10배 낮은 지연시간
  • 저렴한 비용
키워드
  1. DL
  2. 자연어 처리
상세내용

EC2 Inf2 Instance Type 대한 상세 세션

EC2 Inf2

  • Inf2 인스턴스는 AWS에서 설계한 세 번째 DL(deep learning) 가속기인 Instance 이며, 최대 12개의 AWS Inferentia2로 구동
  • Inf1 타입 대비 최대 4배 높은 처리량 및 10배 낮은 지연 시간과 10TB의 집계 메모리 대역폭을 제공하며, 가장 큰 인스턴스 크기인 Inf2.48xlarge 에서 175B의 파라미터 모델이 배포가 가능

Inf2 성능 비교

  • 자연어 처리 애플리케이션에 사용되는 RoBERTa 를 기반으로한 벤치마크
  • G5 타입 대비 처리량은 2.6배 지연 시간은 8.1배 개선


EC2 Inf2 에너지 효율

  • GPU 인스턴스에 최적화된 G5 인스턴스보다 와트 당 최대 50% 절감.

Inf2 분산 밴치마크

  • OPT 30B 기준 Inf2는 초당 573개의 토큰 전달 / G5는 초당 181개의 토큰을 전달로 3배 넘는 처리량의 차이
  • OPT 66B기준 G5는 OOM 발생 / Inf2는 여전히 높은 성능을 제공
    사유는 가장 낮은 비용으로 높은 성능과 짧은 지연 시간 출력을 제공하도록 설계

사용 사례

  • Amazon Search 에서 Inf2 vs G5 비교 시 약 2배 빠른 성능을 보임
Bespin’s Comment
  1. AI/ML 관심이 많은 요즘 저비용 고성능 Instance Type 각광 받는 것 같습니다.
  2. 아직은 Preview 단계로 us-east-1, us-east2 Region 에서만 서비스가 되며, GA 되면 Inf1 Type 사용 고객사들에게 좋은 대안이 되는 서비스 일 것 같습니다.

Leave a Comment