미니 엔비디아 Grace Hopper가 마침내 나왔습니다.
- RBPT
- 조회 수 861
- 2023.05.29. 21:44
Grace = 72코어 Arm Neoverse V2 CPU, Hopper = H100 GPU고 이걸 하나의 칩으로 묶어서 Grace Hopper 칩으로 판매합니다. 대신 여기 들어가는 H100은 기존의 H100 HBM 버전과 다르게 96GB의 VRAM을 달고 나옵니다.
CPU-GPU 인터커넥트를 위한 900GB/s (Gbps 아님) 버스가 전용으로 존재합니다. 기존의 거대 모델 학습에 있어서 큰 병목중 하나가 I/O로 인한 데이터 병목이었는데, 아예 이런식으로 초 거대 버스를 박아둬서 해결하나 봅니다.
Grace Hopper를 탑재한 DGX도 DGX GH200이라고 새로 나왔습니다. DGX H100 (H100 8장 달린 워크스테이션) 의 업그레이드 버전인 거 같긴 한데, 특기할 만한 점은 워크스테이션 한 대 단위로 팔고 필요시 16/32대 단위의 Super POD을 구성할 수 있는 DGX H100과는 달리 여긴 무조건 32대 단위로만 파는 듯 합니다.
여튼 GH200은 Grace Hopper 256대를 묶어서 FP8 기준 최대 1엑사플롭스의 성능을 뽑아낼 수 있다고 주장하고 있습니다. 너무 커서 실감이 안나네요.
더불어 개별 POD을 연결하기 위한 Infiniband / RoCE 네트워크 카드의 고도화 버전인 Bluefield-3 DPU (Data Processing Unit) 도 같이 출시했습니다.
일단은 400Gbps RoCE / NDR IB 네트워크 장치인데, Processing Unit이라고 부르는 이유는 요 네트워크 카드에 16코어 Arm 칩과 32GB DDR5 RAM이 달려 나오기 때문입니다.
DGX GH200에는 저 Bluefield-3 DPU와 기존의 ConnectX-7 NIC가 각각 256장씩 달려 나갑니다. 256장인 걸 보면 Grace Hopper 칩 당 한 장인듯 합니다.
그레이스 저게 아마 원래 삼성 4LPH(5LPP 변형)으로 뽑으려했다가 중간에 취소된걸로 기억