AI 딥마인드, GenRM으로 LLM 정확성 향상...셀프 검증

BarryWhite
조회 수 76
2024.09.04. 08:36

구글 딥마인드가 LLM(대규모 언어 모델)의 고질적 문제이 사실적 오류 및 논리적 오류를 줄이기 위해, 자체 검증 모델인 GenRM을 개발했습니다.

벤처비트는 3일(현지 시각) 딥마인드가 캐나다 토론토 대학교, 밀라 연구소, UCLA와 공동으로 진행한 연구 결과를 소개하며 GenRM이 LLM의 정확성을 향상시키는 새로운 접근 방식이라고 보도했습니다.

기존의 검증 모델은 LLM이 생성한 여러 답변 중 가장 정확한 답변을 선택하는 데 사용됐습니다. 하지만, LLM의 텍스트 생성 능력을 충분히 활용하지 못한다는 한계가 있었습니다.

딥마인드의 선임 연구원이자 이 논문의 공동 저자인 리샤브 아가르왈은 "기존의 보상 모델(RM) 또는 검증 모델은 LLM을 미세 조정해 훈련됐지만, LLM이 기본적으로 설계된 텍스트 생성 기능을 활용하지 못한다"고 지적했습니다.

반면 GenRM은 LLM의 텍스트 생성 기능을 활용하여 보다 효과적인 검증 모델을 만드는 새 접근 방식입니다. GenRM은 차세대 토큰 예측을 사용해 훈련되므로 LLM의 다양한 이점을 활용할 수 있습니다.

GenRM은 검증 결정을 토큰으로 표현해 솔루션에 대한 숫자 점수를 생성합니다. 예를 들어, 검증자가 "답변이 맞습니까?"라는 프롬프트를 사용하고 컨텍스트와 프롬프트 아래에서 단일 텍스트 토큰("예" 또는 "아니요")의 확률로 점수를 나타냅니다.

특히 GenRM은 '사고의 연쇄(CoT)' 추론이라는 고급 프롬프트 기술을 통해 검증 정확도를 향상시킵니다. CoT는 모델이 답변을 하기 전에 사고 과정을 생성하도록 프롬프트를 사용하는 기술입니다. 연구팀은 GenRM을 훈련하는 데 사용된 CoT 근거는 사람이나 다른 LLM에 의해 생성될 수 있으며, 추론하는 동안 GenRM은 먼저 CoT 근거를 생성한 다음 "예" 토큰의 확률을 사용하여 정확도 점수를 할당한다고 설명했습니다.

딥마인드는 GenRM의 효과를 평가하기 위해 마지막 글자 연결, 단어 정렬, 단어 수학 문제 등 여러 추론 작업에서 GenRM을 테스트했습니다. 그 결과, 모든 작업에서 CoT를 사용한 GenRM은 차별적 보상 모델, LLM-as-a-Judge, 자기 일관성 등 표준 접근 방식보다 몇 퍼센트 포인트 높은 성능을 보였습니다.

딥마인드는 GenRM이 합성 검증 근거를 확장하고, 강화 학습 파이프라인에 GenRM을 통합하고, 퓨샷 학습, 검색 증강 생성, ReAct, 코드 생성 및 실행과 같은 고급 LLM 기능을 활용하는 등의 미래 연구 방향을 제시했습니다.

살짝 내려놓고 지박령 활동하겠습니다😆
프로필 속 고양이는 저와 함께 살고 있습니다.
미코 광고 후원 감사합니다😘

🥇소식게 수호자🥇미게 지박령🥉큰게 좋아🥇미코의 잡담왕🥈유게 공무원🥉할인 경보📝게시판 소유자✨️🥉에로게 심심이

에디터로 글쓰기

번호	분류	제목	글쓴이	날짜		조회 수
공지	AI	AI / 로봇 게시판 이용 수칙 240418 [4]	admin	24.04.18	3	261
37	AI	구글, 더 빨라진 제미니 1.5 플래시 공개 [2]	BarryWhite	24.09.03	0	178
36	AI	구글, 직원 소통위한 AI 도입...오히려 소통 단절 비판	BarryWhite	24.09.03	0	103
	AI	딥마인드, GenRM으로 LLM 정확성 향상...셀프 검증	BarryWhite	24.09.04	0	76
34	AI	xAI, AI 학습 시스템 콜로서스 공개…엔비디아 공동 개발	BarryWhite	24.09.04	0	62
33	AI	두바이 피자 체인점, 챗GPT로 신메뉴 개발 성공	BarryWhite	24.09.04	0	151
32	로봇	새송이버섯 이용 바이오 하이브리드 로봇 개발	BarryWhite	24.09.04	2	128
31	AI	빌 게이츠, 가장 많이 쓰는 AI 공개	BarryWhite	24.09.06	1	327
30	AI	구글 제미니, 양식 작성 지원 기능 추가	BarryWhite	24.09.06	0	95
29	로봇	요기요, 자율주행 로봇배달 정식 런칭 [4]	BarryWhite	24.09.09	2	323
28	로봇	LG전자 이동형 AI홈 허브, IFA 최고 제품 선정 [2]	BarryWhite	24.09.11	0	101
27	AI	어도비 파이어플라이, 비디오 생성 기능 추가 예정	BarryWhite	24.09.12	0	43
26	로봇	뉴로메카-조지아대, 의료용 AI 휴머노이드 개발 착수	BarryWhite	24.09.12	0	40
25	AI	AI 가짜 논문, 구글 스콜라서 활개 [1]	BarryWhite	24.09.13	1	187
24	AI	오늘 발표된 o1-preview 시연 영상 [2]	숨겨진오징어	24.09.13	7	423
23	AI	구글, 안드용 AI 챗봇 제미니 라이브 출시...실시간 음성 대화 지원	BarryWhite	24.09.14	0	133
22	AI	OpenAI가 고삐 풀겠다 선언했군요 [3]	Stellist	24.09.16	7	1388
21	AI	앱 개발자·기업: 구글 제미니 쓰기 너무 어려웡! [2]	BarryWhite	24.09.17	1	453
20	AI	EA, 게임 개발 전반에 AI 적극 도입 발표	BarryWhite	24.09.18	0	62
19	AI	AI가 인간보다 잘하는 것	BarryWhite	24.09.19	0	131
18	AI	카이스트, 스텔라트레인 기술 개발...저비용 GPU로 대규모 AI 모델 학습	BarryWhite	24.09.19	0	126
17	AI	AI로 인한 일자리 감소 부정은 어리석은 짓 [2]	BarryWhite	24.09.20	0	132
16	로봇	젠슨 황: 개인용 로봇, R2-D2 현실 될 것	BarryWhite	24.09.20	0	116
15	AI	순다 피차이: AI는 인간 경쟁 아닌 협업 도구 [4]	BarryWhite	24.09.22	2	217
14	AI	중동 자본, AI 스타트업 대규모 투자	BarryWhite	24.09.23	0	54
13	AI	샘 알트먼: 수천일 안에 인간 능가 초지능 출현 [1]	BarryWhite	24.09.24	0	154

👨‍👩‍👧‍👦미코🌕

AI 딥마인드, GenRM으로 LLM 정확성 향상...셀프 검증

추천 IT 소식 [1/]

스킨 기본정보

확장 변수

1. 게시판 기본 설정

2. 글 목록

3. 갤러리 설정

4. 글 읽기 화면

5. 댓글 설정

6. 글 쓰기 화면 설정