AI 딥마인드, GenRM으로 LLM 정확성 향상...셀프 검증

BarryWhite
조회 수 45
2024.09.04. 08:36

구글 딥마인드가 LLM(대규모 언어 모델)의 고질적 문제이 사실적 오류 및 논리적 오류를 줄이기 위해, 자체 검증 모델인 GenRM을 개발했습니다.

벤처비트는 3일(현지 시각) 딥마인드가 캐나다 토론토 대학교, 밀라 연구소, UCLA와 공동으로 진행한 연구 결과를 소개하며 GenRM이 LLM의 정확성을 향상시키는 새로운 접근 방식이라고 보도했습니다.

기존의 검증 모델은 LLM이 생성한 여러 답변 중 가장 정확한 답변을 선택하는 데 사용됐습니다. 하지만, LLM의 텍스트 생성 능력을 충분히 활용하지 못한다는 한계가 있었습니다.

딥마인드의 선임 연구원이자 이 논문의 공동 저자인 리샤브 아가르왈은 "기존의 보상 모델(RM) 또는 검증 모델은 LLM을 미세 조정해 훈련됐지만, LLM이 기본적으로 설계된 텍스트 생성 기능을 활용하지 못한다"고 지적했습니다.

반면 GenRM은 LLM의 텍스트 생성 기능을 활용하여 보다 효과적인 검증 모델을 만드는 새 접근 방식입니다. GenRM은 차세대 토큰 예측을 사용해 훈련되므로 LLM의 다양한 이점을 활용할 수 있습니다.

GenRM은 검증 결정을 토큰으로 표현해 솔루션에 대한 숫자 점수를 생성합니다. 예를 들어, 검증자가 "답변이 맞습니까?"라는 프롬프트를 사용하고 컨텍스트와 프롬프트 아래에서 단일 텍스트 토큰("예" 또는 "아니요")의 확률로 점수를 나타냅니다.

특히 GenRM은 '사고의 연쇄(CoT)' 추론이라는 고급 프롬프트 기술을 통해 검증 정확도를 향상시킵니다. CoT는 모델이 답변을 하기 전에 사고 과정을 생성하도록 프롬프트를 사용하는 기술입니다. 연구팀은 GenRM을 훈련하는 데 사용된 CoT 근거는 사람이나 다른 LLM에 의해 생성될 수 있으며, 추론하는 동안 GenRM은 먼저 CoT 근거를 생성한 다음 "예" 토큰의 확률을 사용하여 정확도 점수를 할당한다고 설명했습니다.

딥마인드는 GenRM의 효과를 평가하기 위해 마지막 글자 연결, 단어 정렬, 단어 수학 문제 등 여러 추론 작업에서 GenRM을 테스트했습니다. 그 결과, 모든 작업에서 CoT를 사용한 GenRM은 차별적 보상 모델, LLM-as-a-Judge, 자기 일관성 등 표준 접근 방식보다 몇 퍼센트 포인트 높은 성능을 보였습니다.

딥마인드는 GenRM이 합성 검증 근거를 확장하고, 강화 학습 파이프라인에 GenRM을 통합하고, 퓨샷 학습, 검색 증강 생성, ReAct, 코드 생성 및 실행과 같은 고급 LLM 기능을 활용하는 등의 미래 연구 방향을 제시했습니다.

살짝 내려놓고 지박령 활동하겠습니다😆
프로필 속 고양이는 저와 함께 살고 있습니다.
미코 광고 후원 감사합니다.

📝게시판 소유자(1)✨️🥇미게 지박령🥇미코의 잡담왕🥇소식게 수호자🥉에로게 심심이🥈유게 공무원🥉큰게 좋아🥉할인 경보

에디터로 글쓰기

번호	분류	제목	글쓴이	날짜		조회 수
공지	AI	AI / 로봇 게시판 이용 수칙 240418 [4]	admin	24.04.18	3	251
307	로봇	새송이버섯 이용 바이오 하이브리드 로봇 개발	BarryWhite	18:26	2	54
306	AI	두바이 피자 체인점, 챗GPT로 신메뉴 개발 성공	BarryWhite	15:01	0	82
305	AI	xAI, AI 학습 시스템 콜로서스 공개…엔비디아 공동 개발	BarryWhite	10:16	0	37
	AI	딥마인드, GenRM으로 LLM 정확성 향상...셀프 검증	BarryWhite	08:36	0	45
303	AI	구글, 직원 소통위한 AI 도입...오히려 소통 단절 비판	BarryWhite	24.09.03	0	76
302	AI	구글, 더 빨라진 제미니 1.5 플래시 공개 [2]	BarryWhite	24.09.03	0	130
301	AI	알리바바, 새 AI 모델 큐웬2-VL 공개…대학 수준 문제 거뜬	BarryWhite	24.09.03	0	78
300	AI	AI가 대답할 수 없는 간단한 질문 [3]	Starlight	24.09.02	5	329
299	AI	구글, 기침소리로 결핵 판별 AI 모델 공개	BarryWhite	24.09.02	0	85
298	AI	AI, 재무 설계사 대체 가능성? 신뢰 구축이 관건	BarryWhite	24.09.01	0	81
297	AI	콜로라도 경찰, AI 보고서 도우미 도입…바디캠 오디오 참고	BarryWhite	24.08.30	0	61
296	AI	클로드, 사용자 대화를 문서 변환하는 아티팩트 출시	BarryWhite	24.08.29	0	96
295	AI	구글, AI 이미지 생성 도구 이마젠3 출시...인물 생성 기능 부활	BarryWhite	24.08.29	1	75
294	AI	구글 제미니 앱, 화면 설명 기능 추가…유튜브 영상도 요약 가능	BarryWhite	24.08.28	0	122
293	AI	애리조나주립대, 올해의 교수로 챗GPT 임명	BarryWhite	24.08.28	0	127
292	AI	세레브라스, 엔비디아 대비 20배 빠른 AI 추론 솔루션 출시	BarryWhite	24.08.28	0	116
291	AI	비디오 편집 Ai 질문입니다. [2]	Polishe	24.08.27	0	96
290	AI	MS, 최신 SLM 시리즈 공개	BarryWhite	24.08.27	0	216
289	AI	핀드롭, 사람 목소리 모방하는 AI 잡아낸다	BarryWhite	24.08.27	1	40
288	AI	(타 유튜브) AI 모델 학습이 인간 의존적일 수 밖에 없는 이유? [10]	Oxc.suga	24.08.23	4	591
287	AI	구글, AI 스튜디오서 프롬프트 갤러리 무료로 제공	BarryWhite	24.08.23	0	106
286	AI	아마존: AI 도구로 시간 절감…50일치를 몇 시간으로	BarryWhite	24.08.23	0	127
285	로봇	팔굽혀 펴기하는 아틀라스	BarryWhite	24.08.23	0	199
284	AI	Z세대: AI 사용, 유용하면서도 죄책감 들어 [1]	BarryWhite	24.08.22	0	284
283	AI	맥아피, AI 딥페이크 탐지 도구 공개	BarryWhite	24.08.22	0	62

👩🏼‍💻미코☀️

AI 딥마인드, GenRM으로 LLM 정확성 향상...셀프 검증

추천 IT 소식 [1/]

스킨 기본정보

사용자 정의

1. 게시판 기본 설정

2. 글 목록

3. 갤러리 설정

4. 글 읽기 화면

5. 댓글 설정

6. 글 쓰기 화면 설정