AI 세레브라스, 엔비디아 대비 20배 빠른 AI 추론 솔루션 출시
- BarryWhite
- 조회 수 136
- 2024.08.28. 05:45
인공지능(AI) 컴퓨팅 기업 세레브라스 시스템즈가 엔비디아보다 최대 20배 빠른 AI 추론 솔루션 '세레브라스 인퍼런스'를 출시했습니다.
세레브라스 인퍼런스는 대규모 언어 모델(LLM) '라마(Llama) 3.1' 8B에서 초당 1,800 토큰, 라마 3.1 70B에서 초당 450 토큰을 처리합니다. 이는 마이크로소프트 애저를 포함한 하이퍼스케일 클라우드에서 제공되는 엔비디아 GPU 기반 AI 추론 솔루션보다 약 20배 빠른 속도입니다.
세레브라스 인퍼런스는 획기적인 성능 향상뿐만 아니라 가격 경쟁력도 갖췄습니다. 예를 들어 100만 토큰 당 10센트의 가격으로 이용할 수 있어, 기존 GPU 클라우드 대비 최대 100배 높은 가격 대비 성능을 제공합니다. 세레브라스는 16비트 정확도와 20배 빠른 추론 속도를 통해 AI 앱 개발자가 속도나 비용 저하 없이 차세대 AI 애플리케이션을 구축할 수 있다고 설명했습니다.
이 혁신적인 가성비는 세레브라스 CS-3 시스템과 웨이퍼 스케일 엔진 3(WSE-3) AI 프로세서를 통해 가능했습니다. 특히 CS-3는 엔비디아 H100보다 메모리 대역폭이 7,000배 넓어 생성형 AI의 메모리 대역폭 기술적 과제를 해결했다고 합니다.
세레브라스 인퍼런스는 무료 티어, 개발자 티어, 엔터프라이즈 티어 등 세 가지 형태로 제공됩니다. 무료 티어는 로그인하는 모든 사용자에게 무료 API 액세스와 넉넉한 사용량 제한을 제공합니다. 개발자 티어는 유연한 서버리스 배포를 위해 설계되었으며, 라마 3.1 8B 및 70B 모델의 경우 100만 토큰 당 각각 10센트, 60센트의 가격으로 API 엔드포인트를 제공합니다. 엔터프라이즈 티어는 미세 조정된 모델, 맞춤형 서비스 수준 계약(SLA), 전담 지원을 제공합니다.
현재 AI 시장은 엔비디아가 장악하고 있지만, 세레브라스와 그록(Groq) 같은 기업들의 등장은 업계 역학 관계에 변화를 예고합니다. 특히 더 빠르고 비용 효율적인 AI 추론 솔루션에 대한 수요가 증가하고 있습니다.