AI 개인이 써볼 수 있는 AI 성능 평가 도구가 있으려나요

Alternative
조회 수 299
2024.06.09. 14:08

GPT-4o를 써보면서 정말 감탄밖에 안 나오고 있는 중인데

문득 예전에도 이러지 않았나 싶어서 GPT-3.5T를 다시 써보니 성능이 처참하네요....

분명 예전에 3.5T 처음 쓸 때는 이것보다는 훨씬 괜찮았는데 말이죠.

뭔가 음모론이 있던 아니면 부적절한 답변을 하지 않기 위해 바꾸면서 성능이 떨어졌건 좀 의심이 많이 되는 상황인데

이걸 어떻게 객관적으로 개인 단위에서 평가가 가능할까요?

나중에 현재의 최신 모델들도 성능 떡락할 거 생각하니 차라리 로컬으로 돌릴까 생각도 드네요...

코코로 뿅뿅

🥈진성 미붕이🥇미코의 잡담왕

1등 쌍피ㄷㄷ

2024.06.09. 16:31

사실 이게 참 애매한 점이, LLM을 객관적으로 평가하려면 대규모의 "배타적" 데이터가 있어야 해요. 왜냐면 평가를 위한 공개된 대규모 데이터셋을 '학습'에 활용하는 사례가 최근 늘어나고 있거든요. 사실 그럴 의도가 없더라도 구하기 쉬운만큼 도메인이 쉽게 겹쳐버리게 되기도 하고요. 이렇게 되면 사실 웹상에 공개된 벤치마크와 그리 다르지 않은 결과가 나옵니다.

한가지 추천할 만한 방법은 작업이나 공부를 할 때, 문뜩문뜩 떠오르는 질문이나 코드를 하나씩 저장해두는 거에요. 그리고 이것들을 10개 정도 모아서 LLM에 입력해보면서 테스트를 수행해보세요. 본인의 도메인에서 LLM의 성능을 대충 가늠해볼 수 있는 나쁘지 않은 방법입니다.

[쌍피ㄷㄷ]님의 댓글을 신고합니다. 취소 신고

에디터로 글쓰기

번호	분류	제목	글쓴이	날짜		조회 수
공지	AI	AI / 로봇 게시판 이용 수칙 240418 [4]	admin	24.04.18	3	261
315	AI	오늘 발표된 o1-preview 시연 영상 [2]	숨겨진오징어	24.09.13	7	424
314	AI	AI 가짜 논문, 구글 스콜라서 활개 [1]	BarryWhite	24.09.13	1	188
313	로봇	뉴로메카-조지아대, 의료용 AI 휴머노이드 개발 착수	BarryWhite	24.09.12	0	42
312	AI	어도비 파이어플라이, 비디오 생성 기능 추가 예정	BarryWhite	24.09.12	0	46
311	로봇	LG전자 이동형 AI홈 허브, IFA 최고 제품 선정 [2]	BarryWhite	24.09.11	0	104
310	로봇	요기요, 자율주행 로봇배달 정식 런칭 [4]	BarryWhite	24.09.09	2	325
309	AI	구글 제미니, 양식 작성 지원 기능 추가	BarryWhite	24.09.06	0	95
308	AI	빌 게이츠, 가장 많이 쓰는 AI 공개	BarryWhite	24.09.06	1	327
307	로봇	새송이버섯 이용 바이오 하이브리드 로봇 개발	BarryWhite	24.09.04	2	128
306	AI	두바이 피자 체인점, 챗GPT로 신메뉴 개발 성공	BarryWhite	24.09.04	0	151
305	AI	xAI, AI 학습 시스템 콜로서스 공개…엔비디아 공동 개발	BarryWhite	24.09.04	0	62
304	AI	딥마인드, GenRM으로 LLM 정확성 향상...셀프 검증	BarryWhite	24.09.04	0	76
303	AI	구글, 직원 소통위한 AI 도입...오히려 소통 단절 비판	BarryWhite	24.09.03	0	104
302	AI	구글, 더 빨라진 제미니 1.5 플래시 공개 [2]	BarryWhite	24.09.03	0	179
301	AI	알리바바, 새 AI 모델 큐웬2-VL 공개…대학 수준 문제 거뜬	BarryWhite	24.09.03	0	106
300	AI	AI가 대답할 수 없는 간단한 질문 [3]	Starlight	24.09.02	5	390
299	AI	구글, 기침소리로 결핵 판별 AI 모델 공개	BarryWhite	24.09.02	0	103
298	AI	AI, 재무 설계사 대체 가능성? 신뢰 구축이 관건	BarryWhite	24.09.01	0	97
297	AI	콜로라도 경찰, AI 보고서 도우미 도입…바디캠 오디오 참고	BarryWhite	24.08.30	0	72
296	AI	클로드, 사용자 대화를 문서 변환하는 아티팩트 출시	BarryWhite	24.08.29	0	107
295	AI	구글, AI 이미지 생성 도구 이마젠3 출시...인물 생성 기능 부활	BarryWhite	24.08.29	1	85
294	AI	구글 제미니 앱, 화면 설명 기능 추가…유튜브 영상도 요약 가능	BarryWhite	24.08.28	0	134
293	AI	애리조나주립대, 올해의 교수로 챗GPT 임명	BarryWhite	24.08.28	0	142
292	AI	세레브라스, 엔비디아 대비 20배 빠른 AI 추론 솔루션 출시	BarryWhite	24.08.28	0	136
291	AI	비디오 편집 Ai 질문입니다. [2]	Polishe	24.08.27	0	111

👨‍👩‍👧‍👦미코🌕

AI 개인이 써볼 수 있는 AI 성능 평가 도구가 있으려나요

추천 IT 소식 [1/]

스킨 기본정보

확장 변수

1. 게시판 기본 설정

2. 글 목록

3. 갤러리 설정

4. 글 읽기 화면

5. 댓글 설정

6. 글 쓰기 화면 설정