세션 유형
Break out
세션명
Introducing AWS Inferentia2-based Amazon EC2 Inf2 instances
강연자
Ben Perak, Tatiana Cooke
세션요약자
조영욱(Youngwook Cho)
핵심내용 요약
- AWS 에서 설계한 세 번째 DL (Deep Learning)
- Inf1 Typoe 대비 최대 4배 높은 처리량 및 10배 낮은 지연시간
- 저렴한 비용
키워드
- DL
- 자연어 처리
상세내용
EC2 Inf2 Instance Type 대한 상세 세션
EC2 Inf2
- Inf2 인스턴스는 AWS에서 설계한 세 번째 DL(deep learning) 가속기인 Instance 이며, 최대 12개의 AWS Inferentia2로 구동
- Inf1 타입 대비 최대 4배 높은 처리량 및 10배 낮은 지연 시간과 10TB의 집계 메모리 대역폭을 제공하며, 가장 큰 인스턴스 크기인 Inf2.48xlarge 에서 175B의 파라미터 모델이 배포가 가능
Inf2 성능 비교
- 자연어 처리 애플리케이션에 사용되는 RoBERTa 를 기반으로한 벤치마크
- G5 타입 대비 처리량은 2.6배 지연 시간은 8.1배 개선
EC2 Inf2 에너지 효율
- GPU 인스턴스에 최적화된 G5 인스턴스보다 와트 당 최대 50% 절감.
Inf2 분산 밴치마크
- OPT 30B 기준 Inf2는 초당 573개의 토큰 전달 / G5는 초당 181개의 토큰을 전달로 3배 넘는 처리량의 차이
- OPT 66B기준 G5는 OOM 발생 / Inf2는 여전히 높은 성능을 제공
사유는 가장 낮은 비용으로 높은 성능과 짧은 지연 시간 출력을 제공하도록 설계
사용 사례
- Amazon Search 에서 Inf2 vs G5 비교 시 약 2배 빠른 성능을 보임
Bespin’s Comment
- AI/ML 관심이 많은 요즘 저비용 고성능 Instance Type 각광 받는 것 같습니다.
- 아직은 Preview 단계로 us-east-1, us-east2 Region 에서만 서비스가 되며, GA 되면 Inf1 Type 사용 고객사들에게 좋은 대안이 되는 서비스 일 것 같습니다.