로그인 해주세요.

AI / 로봇 게시판 *AI / 로봇에 관해 교류하는 게시판입니다.

Alternative

AI 개인이 써볼 수 있는 AI 성능 평가 도구가 있으려나요

GPT-4o를 써보면서 정말 감탄밖에 안 나오고 있는 중인데

문득 예전에도 이러지 않았나 싶어서 GPT-3.5T를 다시 써보니 성능이 처참하네요....

분명 예전에 3.5T 처음 쓸 때는 이것보다는 훨씬 괜찮았는데 말이죠.

 

뭔가 음모론이 있던 아니면 부적절한 답변을 하지 않기 위해 바꾸면서 성능이 떨어졌건 좀 의심이 많이 되는 상황인데

이걸 어떻게 객관적으로 개인 단위에서 평가가 가능할까요?

 

나중에 현재의 최신 모델들도 성능 떡락할 거 생각하니 차라리 로컬으로 돌릴까 생각도 드네요...

Alternative
코코로 뿅뿅
🥇미코의 잡담왕🥈진성 미붕이
댓글
1
1등 쌍피ㄷㄷ
2024.06.09. 16:31

사실 이게 참 애매한 점이, LLM을 객관적으로 평가하려면 대규모의 "배타적" 데이터가 있어야 해요. 왜냐면 평가를 위한 공개된 대규모 데이터셋을 '학습'에 활용하는 사례가 최근 늘어나고 있거든요. 사실 그럴 의도가 없더라도 구하기 쉬운만큼 도메인이 쉽게 겹쳐버리게 되기도 하고요. 이렇게 되면 사실 웹상에 공개된 벤치마크와 그리 다르지 않은 결과가 나옵니다.

한가지 추천할 만한 방법은 작업이나 공부를 할 때, 문뜩문뜩 떠오르는 질문이나 코드를 하나씩 저장해두는 거에요. 그리고 이것들을 10개 정도 모아서 LLM에 입력해보면서 테스트를 수행해보세요. 본인의 도메인에서 LLM의 성능을 대충 가늠해볼 수 있는 나쁘지 않은 방법입니다.

[쌍피ㄷㄷ]님의 댓글을 신고합니다. 취소 신고
취소
번호 분류 제목 글쓴이 날짜 조회 수
공지 AI AI / 로봇 게시판 이용 수칙 240418 [4] admin 24.04.18 3 236
153 AI MIT, 문제 해결 위해 프로그램 만드는 AI 공개 BarryWhite 24.06.17 0 220
152 AI 흑인용 챗GPT 등장…인종 다양성 품는 인공지능 [46] BarryWhite 24.06.17 6 732
151 AI 맥도날드, IBM AI 드라이브 스루 주문 파트너십 종료 BarryWhite 24.06.17 1 127
150 AI 엔비디아, LLM 학습 돕는 네모트론-4 340B 공개 BarryWhite 24.06.17 0 125
149 AI G7 정상회의서 AI 악용 방지 논의 BarryWhite 24.06.17 0 55
148 AI S24에서 온디바이스 LLM 체험하기 [4] file Eomjunsik 24.06.16 4 626
147 AI MS, 비욘드 오픈AI 가시화...LLM자체 개발 [1] BarryWhite 24.06.16 0 195
146 AI 메타, 아일랜드 요청으로 유럽 AI 모델 출시 중단 BarryWhite 24.06.16 0 122
145 AI 구글: AI 검색, 문제 생겨도 보류할 생각 없어 BarryWhite 24.06.16 0 98
144 AI 공무원 일거리 줄어들까…정부, 생성형 AI 첫 도입 BarryWhite 24.06.14 0 216
143 AI 터키서 대학 입시 부정행위...AI로 정답 들었다 [2] BarryWhite 24.06.14 0 342
142 로봇 토요타, 운전하는 휴머노이드 로봇 무사시 개발 BarryWhite 24.06.14 0 177
141 로봇 테슬라: 옵티머스 로봇 자율 작동 중 BarryWhite 24.06.13 0 84
140 AI 브라질, 법조계에 오픈AI 서비스 도입 BarryWhite 24.06.13 0 52
139 AI 이제 그림 ai로 글씨를 쓸 수 있습니다. [2] file Karion 24.06.13 4 804
138 AI 오픈AI, 일론 머스크 주장 반박 BarryWhite 24.06.13 0 186
137 AI 국내 챗GPT앱 사용자수 315만명, 20대 가장 많이 사용 file BarryWhite 24.06.11 1 148
136 AI 日학생 40% 이상 챗GPT 이용 BarryWhite 24.06.11 1 151
135 AI AI 기반 쿼리는 검색 전력 10배 사용 [2] BarryWhite 24.06.10 1 168
134 AI 메타, 개인정보 AI 학습 활용에 유럽 시민단체 반발 BarryWhite 24.06.10 0 84
AI 개인이 써볼 수 있는 AI 성능 평가 도구가 있으려나요 [1] Alternative 24.06.09 1 297
132 AI 성큼 다가온 AI 의사, 암 판별에 CT 분석까지 BarryWhite 24.06.08 1 163
131 AI 에릭 슈미트, 비밀 AI 군용 드론 벤처 설립 [1] BarryWhite 24.06.08 1 189
130 AI 오픈AI: 인공지능 사고 해석 가능 BarryWhite 24.06.07 1 189
129 AI ??? : 개짖는 소리만 들어도 알 수 있습니다. [1] BarryWhite 24.06.07 3 231

추천 IT 소식 [1/]

스킨 기본정보

colorize02 board
2017-03-02
colorize02 게시판

사용자 정의

1. 게시판 기본 설정

게시판 타이틀 하단에 출력 됩니다.

일반 게시판, 리스트 게시판, 갤러리 게시판에만 해당

2. 글 목록

기본 게시판, 일반 게시판, 썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

3. 갤러리 설정

4. 글 읽기 화면

기본 10명 (11명 일 경우, XXXXX 외 1명으로 표시)

5. 댓글 설정

일정 수 이상의 추천을 받은 댓글에 표시를 합니다.

6. 글 쓰기 화면 설정

글 쓰기 폼에 미리 입력해 놓을 문구를 설정합니다.

서버에 요청 중입니다. 잠시만 기다려 주십시오...