로그인 해주세요.

AI / 로봇 게시판 *AI / 로봇에 관해 교류하는 게시판입니다.

Alternative

AI 개인이 써볼 수 있는 AI 성능 평가 도구가 있으려나요

GPT-4o를 써보면서 정말 감탄밖에 안 나오고 있는 중인데

문득 예전에도 이러지 않았나 싶어서 GPT-3.5T를 다시 써보니 성능이 처참하네요....

분명 예전에 3.5T 처음 쓸 때는 이것보다는 훨씬 괜찮았는데 말이죠.

 

뭔가 음모론이 있던 아니면 부적절한 답변을 하지 않기 위해 바꾸면서 성능이 떨어졌건 좀 의심이 많이 되는 상황인데

이걸 어떻게 객관적으로 개인 단위에서 평가가 가능할까요?

 

나중에 현재의 최신 모델들도 성능 떡락할 거 생각하니 차라리 로컬으로 돌릴까 생각도 드네요...

Alternative
코코로 뿅뿅
🥈진성 미붕이🥇미코의 잡담왕
댓글
1
1등 쌍피ㄷㄷ
2024.06.09. 16:31

사실 이게 참 애매한 점이, LLM을 객관적으로 평가하려면 대규모의 "배타적" 데이터가 있어야 해요. 왜냐면 평가를 위한 공개된 대규모 데이터셋을 '학습'에 활용하는 사례가 최근 늘어나고 있거든요. 사실 그럴 의도가 없더라도 구하기 쉬운만큼 도메인이 쉽게 겹쳐버리게 되기도 하고요. 이렇게 되면 사실 웹상에 공개된 벤치마크와 그리 다르지 않은 결과가 나옵니다.

한가지 추천할 만한 방법은 작업이나 공부를 할 때, 문뜩문뜩 떠오르는 질문이나 코드를 하나씩 저장해두는 거에요. 그리고 이것들을 10개 정도 모아서 LLM에 입력해보면서 테스트를 수행해보세요. 본인의 도메인에서 LLM의 성능을 대충 가늠해볼 수 있는 나쁘지 않은 방법입니다.

[쌍피ㄷㄷ]님의 댓글을 신고합니다. 취소 신고
취소
번호 분류 제목 글쓴이 날짜 조회 수
공지 AI AI / 로봇 게시판 이용 수칙 240418 [4] admin 24.04.18 3 261
137 AI 국내 챗GPT앱 사용자수 315만명, 20대 가장 많이 사용 file BarryWhite 24.06.11 1 148
136 AI 日학생 40% 이상 챗GPT 이용 BarryWhite 24.06.11 1 153
135 AI AI 기반 쿼리는 검색 전력 10배 사용 [2] BarryWhite 24.06.10 1 168
134 AI 메타, 개인정보 AI 학습 활용에 유럽 시민단체 반발 BarryWhite 24.06.10 0 84
AI 개인이 써볼 수 있는 AI 성능 평가 도구가 있으려나요 [1] Alternative 24.06.09 1 299
132 AI 성큼 다가온 AI 의사, 암 판별에 CT 분석까지 BarryWhite 24.06.08 1 167
131 AI 에릭 슈미트, 비밀 AI 군용 드론 벤처 설립 [1] BarryWhite 24.06.08 1 199
130 AI 오픈AI: 인공지능 사고 해석 가능 BarryWhite 24.06.07 1 189
129 AI ??? : 개짖는 소리만 들어도 알 수 있습니다. [1] BarryWhite 24.06.07 3 234
128 AI 前오픈AI 직원: AI, 2년 내 대학생 앞지를 것 [7] BarryWhite 24.06.07 4 491
127 AI gpt 맥 앱 사용 후기 룬룬 24.06.07 1 198
126 AI 구글, 노트북LM 실험 버전 출시 file BarryWhite 24.06.07 0 227
125 AI 100년 내 인간 멸종 가능성 99.9%…10년 내 AI 킬러 등장 예언 [5] BarryWhite 24.06.06 3 682
124 AI 네이버: 올해 내 생성형AI vLLM 오픈소스 공개 BarryWhite 24.06.06 1 161
123 AI gpt랑 클로드 둘 다 써보니 룬룬 24.06.05 1 206
122 AI GPT-4o 기반 챗GPT 데모 만큼 놀랍지 않다...왜? 뉴스봇 24.06.05 0 348
121 AI 자체 AI '믿음' 개발 KT, MS와 협력으로 전략 선회 [1] MrGom™ 24.06.04 1 166
120 AI 오픈AI 챗GPT 해킹 당해 [4] BarryWhite 24.06.04 2 545
119 AI AI 학습에 유튜브 동영상 활용 [3] BarryWhite 24.06.04 0 172
118 AI 아마존, AI 기반 프로젝트 PI 도입…상품 손상·오배송 줄인다 BarryWhite 24.06.04 0 76
117 AI gpt랑 클로드를 섞어줬음 좋겠어요 룬룬 24.06.03 0 167
116 AI 오픈AI, 로봇용 AI 모델 설계 사업부 개편 BarryWhite 24.06.03 0 120
115 AI 보이스피싱, AI로 잡는다…금감원·국과수 데이터 활용 BarryWhite 24.06.03 0 81
114 AI 구글, '오답 논란' AI 검색 기능 개선 나섰다 MrGom™ 24.06.01 0 242
113 AI 오픈AI, 학교와 비영리 단체 위한 챗GPT 에듀 선봬 BarryWhite 24.06.01 1 247

추천 IT 소식 [1/]

스킨 기본정보

colorize02 board
2017-03-02
colorize02 게시판

확장 변수

1. 게시판 기본 설정

게시판 타이틀 하단에 출력 됩니다.

일반 게시판, 리스트 게시판, 갤러리 게시판에만 해당

2. 글 목록

기본 게시판, 일반 게시판, 썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

3. 갤러리 설정

4. 글 읽기 화면

기본 10명 (11명 일 경우, XXXXX 외 1명으로 표시)

5. 댓글 설정

일정 수 이상의 추천을 받은 댓글에 표시를 합니다.

6. 글 쓰기 화면 설정

글 쓰기 폼에 미리 입력해 놓을 문구를 설정합니다.