AI NIA, AI모델 성능 평가 전면 재편···추론·감성 등 9개 지표 사용

BarryWhite
조회 수 71
2024.08.13. 16:56

한국지능정보사회진흥원(NIA)과 업스테이지가 공동 운영하는 ‘Open Ko-LLM 리더보드’가 시즌2로 전면 개편했다. 추론능력, 감성, 무해성, 등 9개의 새로운 지표를 적용, 성능을 측정한다. 시즌1에서는 5개 지표(4개는 허깅페이스 벤치마킹,1개는 고대 임희석 교수 마련)를 적용했다.

‘Open Ko-LLM 리더보드’는 지난해 9월 민관협력을 통해 개설한 국내 최대 개방형 한국어 LLM 평가 체계다. 산·학·연 각계 분야에서 올 7월 말 기준 1700개가 넘는 LLM 모델을 제출해 평가를 받았다. 하지만 LLM 기술이 빠르게 발전함에 따라 1년 전에 만든 리더보드 벤치마크(평가지표)의 개선 필요성이 제기됐다. NIA가 벤치마킹한 글로벌 ‘Open LLM 리더보드’를 운영 중인 허깅페이스도 지난 6월 새롭게 개편한 리더보드 시즌2를 공개한 바 있다.

일각에서는 NIA '리더보드'에 대해 "자본을 투입해 일시적으로 성능을 높일 수 있다"면서 "LLM 생태계를 교란시키고 엔드 투 엔드 딜리버리 품질을 하향 평준화 시키는 이런 리더보드를 왜 운영해야 하는 지 모르겠다"는 비판적 시각도 보였다.

전 사실 비판 의견에 동감합니다.

살짝 내려놓고 지박령 활동하겠습니다😆
프로필 속 고양이는 저와 함께 살고 있습니다.
미코 광고 후원 감사합니다😘

🥇소식게 수호자🥇미게 지박령🥉큰게 좋아🥇미코의 잡담왕🥈유게 공무원🥉할인 경보📝게시판 소유자✨️🥉에로게 심심이

에디터로 글쓰기

번호	분류	제목	글쓴이	날짜		조회 수
공지	AI	AI / 로봇 게시판 이용 수칙 240418 [4]	admin	24.04.18	3	261
257	AI	앤트로픽, 美 작가들에게 저작권 침해 집단 소송 당해	BarryWhite	24.08.21	0	94
256	AI	엔비디아, 게임 캐릭터 대화 혁신 이끌 AI 모델 공개	BarryWhite	24.08.21	0	178
255	AI	생성형AI로 폭풍 찾는다…엔비디아, 스톰캐스트 공개	BarryWhite	24.08.20	0	88
254	AI	오픈AI: 챗GPT로 허위 정보 유포한 이란 계정 차단	BarryWhite	24.08.19	0	111
253	AI	미드저니, 웹용 이미지 편집기 공개	BarryWhite	24.08.19	0	82
252	AI	메타 라마 3.1 미세 조정한 에르메스3 등장	BarryWhite	24.08.19	0	116
251	AI	긱벤치 AI 등장	BarryWhite	24.08.16	0	214
250	AI	中 AI 챗봇 토키, 美서 인기	BarryWhite	24.08.16	0	108
249	AI	신장결석 수술로봇 중 세계 첫 AI 탑재	BarryWhite	24.08.15	0	117
248	AI	광복절에 적절한 영상 [1]	곰장수	24.08.15	1	206
247	AI	실험 및 논문 작성해주는 AI 사이언티스트 등장	BarryWhite	24.08.14	0	124
246	AI	美, AI로 시험관 아기 시술 자동화 도전	BarryWhite	24.08.14	0	66
245	AI	모든 업무를 음성으로…구글, 제미나이 라이브 공개	BarryWhite	24.08.14	0	77
244	AI	내가 강력한 지성을 가진 AI에게 시키는 것 [1]	Alternative	24.08.13	9	463
243	AI	인간 능가하는 AGI, 인류 마지막 발명품 될 수 있어 [2]	BarryWhite	24.08.13	0	204
242	AI	오픈AI, LLM 생성 형식 불일치 문제 해결	BarryWhite	24.08.13	0	94
	AI	NIA, AI모델 성능 평가 전면 재편···추론·감성 등 9개 지표 사용	BarryWhite	24.08.13	0	71
240	AI	구글, 제미니 1.5 플래시 사용료 최대 78% 대폭 인하	BarryWhite	24.08.12	0	149
239	AI	AI 도입하면 오히려 생산성 떨어지고 업무량 늘어나 [2]	BarryWhite	24.08.12	0	277
238	AI	軍도 AI 챗봇 적용? [3]	BarryWhite	24.08.11	0	258
237	AI	AI 남친과 11월 결혼하는 38세 女 [1]	BarryWhite	24.08.11	0	568
236	AI	AI 출력 데이터를 AI가 학습 시, 시스템 붕괴?	BarryWhite	24.08.09	0	103
235	AI	KT: MS 협력으로 국내 특화 LLM 출시	BarryWhite	24.08.09	0	93
234	AI	오픈AI GPT-4o, 위험도 평가 결과 중간	BarryWhite	24.08.09	0	214
233	AI	구글 딥마인드, 인간 아마추어 수준 탁구 로봇 공개	BarryWhite	24.08.09	1	106

👨‍👩‍👧‍👦미코🌕

AI NIA, AI모델 성능 평가 전면 재편···추론·감성 등 9개 지표 사용

추천 IT 소식 [1/]

스킨 기본정보

확장 변수

1. 게시판 기본 설정

2. 글 목록

3. 갤러리 설정

4. 글 읽기 화면

5. 댓글 설정

6. 글 쓰기 화면 설정