AI 개인이 써볼 수 있는 AI 성능 평가 도구가 있으려나요
- Alternative
- 조회 수 299
- 2024.06.09. 14:08
GPT-4o를 써보면서 정말 감탄밖에 안 나오고 있는 중인데
문득 예전에도 이러지 않았나 싶어서 GPT-3.5T를 다시 써보니 성능이 처참하네요....
분명 예전에 3.5T 처음 쓸 때는 이것보다는 훨씬 괜찮았는데 말이죠.
뭔가 음모론이 있던 아니면 부적절한 답변을 하지 않기 위해 바꾸면서 성능이 떨어졌건 좀 의심이 많이 되는 상황인데
이걸 어떻게 객관적으로 개인 단위에서 평가가 가능할까요?
나중에 현재의 최신 모델들도 성능 떡락할 거 생각하니 차라리 로컬으로 돌릴까 생각도 드네요...
🥈진성 미붕이🥇미코의 잡담왕
댓글
사실 이게 참 애매한 점이, LLM을 객관적으로 평가하려면 대규모의 "배타적" 데이터가 있어야 해요. 왜냐면 평가를 위한 공개된 대규모 데이터셋을 '학습'에 활용하는 사례가 최근 늘어나고 있거든요. 사실 그럴 의도가 없더라도 구하기 쉬운만큼 도메인이 쉽게 겹쳐버리게 되기도 하고요. 이렇게 되면 사실 웹상에 공개된 벤치마크와 그리 다르지 않은 결과가 나옵니다.
한가지 추천할 만한 방법은 작업이나 공부를 할 때, 문뜩문뜩 떠오르는 질문이나 코드를 하나씩 저장해두는 거에요. 그리고 이것들을 10개 정도 모아서 LLM에 입력해보면서 테스트를 수행해보세요. 본인의 도메인에서 LLM의 성능을 대충 가늠해볼 수 있는 나쁘지 않은 방법입니다.