미니 GPT 대규모 언어 모델 트레이닝을 위한 NVIDIA H100과 A100 비교
- PatGelsinger
- 조회 수 586
- 2023.04.29. 12:50
최근 클라우드 서비스 제공업체(CSP)를 통해 NVIDIA의 H100을 사용할 수 있게 되었으며, 누군가가 성능을 벤치마킹하고 이전 세대의 A100 GPU와 비교하기로 결정하는 것은 시간 문제였습니다. 오늘은 Nervana의 전 CEO이자 인텔의 인공 지능(AI) GM인 나빈 라오가 이끄는 스타트업 회사인 MosaicML의 벤치마크 덕분에 비용 요소에 대한 흥미로운 통찰력과 함께 두 GPU를 비교해 보았습니다. 먼저, MosaicML은 다양한 크기의 생성형 사전 훈련 트랜스포머(GPT) 모델을 가져와 bfloat16 및 FP8 부동 소수점 정밀도 형식을 사용하여 훈련했습니다. 모든 트레이닝은 코어위브 클라우드 GPU 인스턴스에서 이루어졌습니다.
성능 측면에서 NVIDIA H100 GPU는 2.2배에서 3.3배의 속도 향상을 달성했습니다. 하지만 클라우드에서 이러한 GPU를 실행하는 데 드는 비용을 비교해보면 흥미로운 사실을 발견할 수 있습니다. CoreWeave는 H100 SXM GPU의 가격을 시간당 4.76달러/GPU로 책정한 반면, A100 80GB SXM의 가격은 시간당 2.21달러/GPU로 책정했습니다. H100은 2.2배 더 비싸지만, 성능이 이를 상쇄하기 때문에 모델 훈련에 소요되는 시간이 단축되고 훈련 프로세스 비용이 낮아집니다. 따라서 대규모 언어 모델(LLM)을 훈련하고자 하는 연구자와 기업에게 H100은 본질적으로 더 매력적이며, 비용 증가에도 불구하고 최신 GPU를 선택하는 것이 더 실용적인 선택이 될 수 있습니다. 아래에서 두 GPU의 훈련 시간, 속도, 훈련 비용을 비교한 표를 확인할 수 있습니다.