AI NIA, AI모델 성능 평가 전면 재편···추론·감성 등 9개 지표 사용
- BarryWhite
- 조회 수 71
- 2024.08.13. 16:56
한국지능정보사회진흥원(NIA)과 업스테이지가 공동 운영하는 ‘Open Ko-LLM 리더보드’가 시즌2로 전면 개편했다. 추론능력, 감성, 무해성, 등 9개의 새로운 지표를 적용, 성능을 측정한다. 시즌1에서는 5개 지표(4개는 허깅페이스 벤치마킹,1개는 고대 임희석 교수 마련)를 적용했다.
‘Open Ko-LLM 리더보드’는 지난해 9월 민관협력을 통해 개설한 국내 최대 개방형 한국어 LLM 평가 체계다. 산·학·연 각계 분야에서 올 7월 말 기준 1700개가 넘는 LLM 모델을 제출해 평가를 받았다. 하지만 LLM 기술이 빠르게 발전함에 따라 1년 전에 만든 리더보드 벤치마크(평가지표)의 개선 필요성이 제기됐다. NIA가 벤치마킹한 글로벌 ‘Open LLM 리더보드’를 운영 중인 허깅페이스도 지난 6월 새롭게 개편한 리더보드 시즌2를 공개한 바 있다.
일각에서는 NIA '리더보드'에 대해 "자본을 투입해 일시적으로 성능을 높일 수 있다"면서 "LLM 생태계를 교란시키고 엔드 투 엔드 딜리버리 품질을 하향 평준화 시키는 이런 리더보드를 왜 운영해야 하는 지 모르겠다"는 비판적 시각도 보였다.
*
전 사실 비판 의견에 동감합니다.
🥇소식게 수호자🥇미게 지박령🥉큰게 좋아🥇미코의 잡담왕🥈유게 공무원🥉할인 경보📝게시판 소유자✨️🥉에로게 심심이
댓글
0