로그인 해주세요.

AI / 로봇 게시판 *AI / 로봇에 관해 교류하는 게시판입니다.

Alternative

AI 개인이 써볼 수 있는 AI 성능 평가 도구가 있으려나요

GPT-4o를 써보면서 정말 감탄밖에 안 나오고 있는 중인데

문득 예전에도 이러지 않았나 싶어서 GPT-3.5T를 다시 써보니 성능이 처참하네요....

분명 예전에 3.5T 처음 쓸 때는 이것보다는 훨씬 괜찮았는데 말이죠.

 

뭔가 음모론이 있던 아니면 부적절한 답변을 하지 않기 위해 바꾸면서 성능이 떨어졌건 좀 의심이 많이 되는 상황인데

이걸 어떻게 객관적으로 개인 단위에서 평가가 가능할까요?

 

나중에 현재의 최신 모델들도 성능 떡락할 거 생각하니 차라리 로컬으로 돌릴까 생각도 드네요...

Alternative
코코로 뿅뿅
🥈진성 미붕이🥇미코의 잡담왕
댓글
1
1등 쌍피ㄷㄷ
2024.06.09. 16:31

사실 이게 참 애매한 점이, LLM을 객관적으로 평가하려면 대규모의 "배타적" 데이터가 있어야 해요. 왜냐면 평가를 위한 공개된 대규모 데이터셋을 '학습'에 활용하는 사례가 최근 늘어나고 있거든요. 사실 그럴 의도가 없더라도 구하기 쉬운만큼 도메인이 쉽게 겹쳐버리게 되기도 하고요. 이렇게 되면 사실 웹상에 공개된 벤치마크와 그리 다르지 않은 결과가 나옵니다.

한가지 추천할 만한 방법은 작업이나 공부를 할 때, 문뜩문뜩 떠오르는 질문이나 코드를 하나씩 저장해두는 거에요. 그리고 이것들을 10개 정도 모아서 LLM에 입력해보면서 테스트를 수행해보세요. 본인의 도메인에서 LLM의 성능을 대충 가늠해볼 수 있는 나쁘지 않은 방법입니다.

[쌍피ㄷㄷ]님의 댓글을 신고합니다. 취소 신고
취소
번호 분류 제목 글쓴이 날짜 조회 수
공지 AI AI / 로봇 게시판 이용 수칙 240418 [4] admin 24.04.18 3 261
315 AI 오늘 발표된 o1-preview 시연 영상 [2] file 숨겨진오징어 24.09.13 7 424
314 AI AI 가짜 논문, 구글 스콜라서 활개 [1] BarryWhite 24.09.13 1 188
313 로봇 뉴로메카-조지아대, 의료용 AI 휴머노이드 개발 착수 BarryWhite 24.09.12 0 42
312 AI 어도비 파이어플라이, 비디오 생성 기능 추가 예정 BarryWhite 24.09.12 0 46
311 로봇 LG전자 이동형 AI홈 허브, IFA 최고 제품 선정 [2] BarryWhite 24.09.11 0 104
310 로봇 요기요, 자율주행 로봇배달 정식 런칭 [4] file BarryWhite 24.09.09 2 325
309 AI 구글 제미니, 양식 작성 지원 기능 추가 BarryWhite 24.09.06 0 95
308 AI 빌 게이츠, 가장 많이 쓰는 AI 공개 BarryWhite 24.09.06 1 327
307 로봇 새송이버섯 이용 바이오 하이브리드 로봇 개발 BarryWhite 24.09.04 2 128
306 AI 두바이 피자 체인점, 챗GPT로 신메뉴 개발 성공 BarryWhite 24.09.04 0 151
305 AI xAI, AI 학습 시스템 콜로서스 공개…엔비디아 공동 개발 BarryWhite 24.09.04 0 62
304 AI 딥마인드, GenRM으로 LLM 정확성 향상...셀프 검증 BarryWhite 24.09.04 0 76
303 AI 구글, 직원 소통위한 AI 도입...오히려 소통 단절 비판 BarryWhite 24.09.03 0 104
302 AI 구글, 더 빨라진 제미니 1.5 플래시 공개 [2] BarryWhite 24.09.03 0 179
301 AI 알리바바, 새 AI 모델 큐웬2-VL 공개…대학 수준 문제 거뜬 BarryWhite 24.09.03 0 106
300 AI AI가 대답할 수 없는 간단한 질문 [3] file Starlight 24.09.02 5 390
299 AI 구글, 기침소리로 결핵 판별 AI 모델 공개 BarryWhite 24.09.02 0 103
298 AI AI, 재무 설계사 대체 가능성? 신뢰 구축이 관건 BarryWhite 24.09.01 0 97
297 AI 콜로라도 경찰, AI 보고서 도우미 도입…바디캠 오디오 참고 BarryWhite 24.08.30 0 72
296 AI 클로드, 사용자 대화를 문서 변환하는 아티팩트 출시 BarryWhite 24.08.29 0 107
295 AI 구글, AI 이미지 생성 도구 이마젠3 출시...인물 생성 기능 부활 BarryWhite 24.08.29 1 85
294 AI 구글 제미니 앱, 화면 설명 기능 추가…유튜브 영상도 요약 가능 BarryWhite 24.08.28 0 134
293 AI 애리조나주립대, 올해의 교수로 챗GPT 임명 BarryWhite 24.08.28 0 142
292 AI 세레브라스, 엔비디아 대비 20배 빠른 AI 추론 솔루션 출시 file BarryWhite 24.08.28 0 136
291 AI 비디오 편집 Ai 질문입니다. [2] Polishe 24.08.27 0 111

추천 IT 소식 [1/]

스킨 기본정보

colorize02 board
2017-03-02
colorize02 게시판

확장 변수

1. 게시판 기본 설정

게시판 타이틀 하단에 출력 됩니다.

일반 게시판, 리스트 게시판, 갤러리 게시판에만 해당

2. 글 목록

기본 게시판, 일반 게시판, 썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

3. 갤러리 설정

4. 글 읽기 화면

기본 10명 (11명 일 경우, XXXXX 외 1명으로 표시)

5. 댓글 설정

일정 수 이상의 추천을 받은 댓글에 표시를 합니다.

6. 글 쓰기 화면 설정

글 쓰기 폼에 미리 입력해 놓을 문구를 설정합니다.