
소식 LG, EXAONE Deep 공개
- D6503
- 조회 수 478
- 2025.03.19. 10:31
AI가 사람의 지시 없이 스스로 가설을 세우고 검증하며, 자율적으로 의사결정을 내리는 Agentic AI 시대가 다가오고 있습니다. Agentic AI 시대로의 전환에서 추론 강화 모델의 개발은 필수적이지만 높은 성능의 추론 강화 모델을 확보하는 것이 쉬운 일은 아닙니다. 세계적으로도 파운데이션 모델을 보유한 몇몇 기업만이 자체 추론 강화 모델을 개발하고 있습니다.
LG AI연구원은 이들 모델과 경쟁 가능한 수준을 갖춘 강력한 Reasoning AI, EXAONE Deep을 공개합니다. EXAONE Deep은 수학적 논리를 이해하고, 과학적 개념을 추론하며, 프로그래밍 문제를 해결하는 능력을 갖춘 고성능 추론 특화 모델입니다.
우리는 EXAONE Deep을 개발하는 과정에서 Math, Science, Coding 영역에서 Reasoning 성능을 비약적으로 향상시키는 데 초점을 맞추었습니다. 동시에 전반적인 영역에서 필요한 지식을 이해하고 응용할 수 있는 능력도 갖추도록 했습니다.
|
EXAONE Deep 32B 모델은 공개 직후 미국 비영리 연구 기관인 Epoch AI의 Notable AI Models 리스트에 등재되며 성능을 입증했습니다. 이는 EXAONE 3.5 이후 연이어 등재된 것으로, 최근 2년간 해당 리스트에 등재된 대한민국 모델은 EXAONE이 유일합니다. 우리는 EXAONE Deep과 함께 단순히 숫자로 나타나는 성능을 넘어, Reasoning AI의 새로운 기준을 제시하고자 합니다.
이미지 1. Epoch AI의 Notable AI Models 리스트에 등재된 EXAONE Deep 과 EXAONE 3.5
(출처 : Epoch AI)
지금부터 EXAONE Deep의 핵심 특징과 성능을 실제 벤치마크 결과와 함께 보여드리겠습니다. 더 강력해진 EXAONE Deep과 함께 AI의 미래와 가능성을 직접 확인해 보세요!
EXAONE Deep Model:
https://huggingface.co/collections/LGAI-EXAONE/exaone-deep-67d119918816ec6efa79a4aa
https://github.com/LG-AI-EXAONE/EXAONE-Deep
EXAONE Deep Technical Report:
https://arxiv.org/abs/2503.12524
1. Math ━ 2025학년도 수능 수학 영역 최고점 기록, 7.8B&2.4B 주요 벤치마크 모두 1위
EXAONE Deep 32B, 7.4B, 2.4B 모델 모두 2025학년도 수능 수학 영역에서 글로벌 추론 모델 대비 월등한 성능을 입증했습니다. 동급 모델과 비교했을 때 모두 최고 점수를 기록하며 수학적 추론 능력에서 압도적인 경쟁력을 보여주었습니다.
이미지 2. Performance Comparison in the Mathematics Category
※ 별표(*)는 공식적으로 보고된 수치를, 보라색으로 강조된 점수는 최고 성능을 나타냅니다.
이미지 3. CSAT 2025 Mathematics Evaluation Results
EXAONE Deep 32B ━ 경쟁 모델의 5% 사이즈로 고난이도 수학 벤치마크 성능 앞서
EXAONE Deep 32B 모델은 수능 수학 영역에서 94.5점, 미국 올림피아드 선발 초청 기준으로 활용되는 AIME 2024에서 90.0점을 기록하며 경쟁 모델 중 최고 성능을 보였습니다.
AIME 2025에서는 DeepSeek-R1(671B) 모델과 동등한 성과를 달성했습니다. 이 결과는 까다로운 수학 평가에서 뛰어난 문제 해결 능력과 논리적 추론력을 입증했음을 의미합니다.
특히, AIME처럼 난이도가 높은 평가에서 큰 사이즈의 모델들 대비 우수한 점수를 기록하여 EXAONE의 주요 강점으로 손꼽히는 학습 효율성과 경제성을 다시 한번 확인할 수 있었습니다.
EXAONE Deep 7.8B & 2.4B ━ 주요 벤치마크에서 모두 1위 달성
7.8B와 2.4B 모델은 각각 경량 모델과 온디바이스 모델 군에서 주요 벤치마크 모두 1위를 기록하며 압도적인 성능을 입증했습니다. 7.8B 모델은 MATH-500에서 94.8점, AIME 2025에서 59.6점을 기록했고 2.4B 모델은 각각 92.3점과 47.9점을 나타냈습니다.
2. Science & Coding ━ 전문 과학 분야 추론 및 소프트웨어 코딩 능력 탁월
이미지 4. Performance Comparison in the Coding Category
※ 별표(*)는 공식적으로 보고된 수치를, 보라색으로 강조된 점수는 최고 성능을 나타냅니다.
EXAONE Deep 모델은 과학과 코딩 영역에서도 압도적인 성능을 입증했습니다.
먼저 32B 모델은 박사 수준의 물리학, 화학, 생물학 분야 문제 해결 능력을 평가하는 GPQA 다이아몬드(Diamond) 테스트에서 66.1점, 코딩 능력을 평가하는 라이브코드벤치(LiveCodeBench)는 59.5점을 기록했습니다. 전문 지식이 필요한 영역에서도 높은 활용도를 갖췄음을 시사합니다.
7.8B와 2.4B 모델 역시 GPQA 다이아몬드와 라이브코드벤치 모두에서 1위를 기록했습니다. 특히 작년 12월 공개한 EXAONE 3.5 2.4B 모델이 Hugging Face의 'LLM 리더보드' 엣지부문 1위에 오른 데 이어, EXAONE Deep이 최고 성능을 달성함으로써 글로벌 최고 수준의 경량 및 온디바이스용 모델임을 입증했습니다.
3. MMLU ━ 국내 자체 모델 중 최고 성능 입증
EXAONE Deep 모델은 수학, 과학, 코딩 분야에 특화된 추론 성능과 함께, General 영역에서의 성능도 한층 강화됐습니다. 특히 32B 모델은 MMLU(Massive Multitask Language Understanding)에서 83.0 점을 기록하여, 국내 자체 모델 중 단연 최고 수준의 성능을 달성했습니다.
이미지 5. Performance Comparison in the General Category
※ 별표(*)는 공식적으로 보고된 수치를, 보라색으로 강조된 점수는 최고 성능을 나타냅니다.
EXAONE Deep은 수학, 과학과 코딩 등 다양한 영역에서 AI의 추론 능력을 확장하고, 이를 넘어 더욱 복잡한 문제 해결에 도전하고 있습니다. 앞으로도 지속적인 연구와 혁신을 통해, AI가 인류의 삶을 더 풍요롭고 편리하게 만드는 데 기여할 수 있도록 발전해 나가겠습니다.
