소식 AMD MI300X 벤치마크, 엔비디아 H100과 대등
- BarryWhite
- 조회 수 137
- 2024.08.30. 06:16
AMD가 인공지능(AI) 및 고성능컴퓨팅(HPC)용 가속기 인스팅트(Instinct) MI300X의 첫 공식 MLPerf 벤치마크 결과를 공개했습니다.
결과적으로 MI300X 프로세서는 생성형 AI 모델 Llama 2 70B서 엔비디아 H100 GPU와 비슷한 성능을 보였지만, 개선된 H200 버전이나 곧 출시될 엔비디아 B200에는 크게 못 미치는 결과를 나타냈습니다.
AMD는 8개의 MI300X 프로세서를 탑재한 시스템에서 초당 23,512토큰(offline)의 속도를 기록했습니다. 이는 8개의 엔비디아 H100 SXM3 프로세서를 탑재한 시스템의 24,323토큰(offline)보다 약간 느린 수준입니다. 실제 서버 벤치마크에서는 AMD MI300X 시스템이 초당 21,028토큰으로 Nvidia H100 시스템의 20,605토큰보다 약간 빠른 속도를 보였습니다.
하지만 MI300X의 AI 최대 성능은 2.6 POPs(구조적 희소성 적용 시 5.22 POPs)인 반면 Nvidia H100의 최대 성능은 1.98 FP8/INT8 TFLOPS/TOPS(희소성 적용 시 3.96 TFLOPS/TOPS)입니다. 또 Nvidia의 H100 SXM3 모듈은 최대 대역폭 3.35TB/s의 80GB HBM3 메모리를 탑재한 반면, AMD의 Instinct MI300X는 최대 대역폭 5.3TB/s의 192GB HBM3 메모리를 탑재했습니다.
이론적으로 AMD MI300X가 Nvidia H100보다 성능 면에서 큰 이점을 가져야 하지만, 탐스하드웨어에 따르면 소프트웨어 스택으로 인해 하드웨어 기능을 최대한 활용하지 못하는 것으로 보입니다.
AMD는 처음으로 단일 및 8-way GPU 결과를 제출했으며, 엔비디아 H100과 경쟁할 수 있는 수준의 성능을 보여주었다는 점에서 의미가 있습니다. 하지만 현재는 Llama 2 70B 모델에 대한 MLPerf 4.1 생성형 AI 벤치마크 결과만 공개됐으며, 3D Unet, BERT, DLRM, GPT-J, Mixtral, Resnet, Retinanet, Stable Diffusion XL 등 나머지 8개 표준 벤치마크 결과는 공개되지 않았습니다.