AI 어느새 눈 앞으로 다가온 온디바이스 LLM 시대
- Eomjunsik
- 조회 수 780
- 2024.04.20. 00:40
어제 공개된 Meta의 Llama 3는 8B, 70B 두개의 종류가 선공개 되었습니다.
여기서 주목하셔야 하는 것은 8B 모델의 성능입니다.
현존하는 LLM 평가 방식 중 그나마 체감에 가깝다고 여겨지는 LLM Arena 결과입니다. 아직 초기 결과에 불과하지만 instuction-tuned 버전의 Llama 3 8B가 Gemini Pro, Claude 2.1, GPT 3.5를 모두 능가하는 성능을 보여줍니다.
이것이 큰 의미를 갖는 이유는
1. Meta가 공개하는 Instruction-tuned 버전은 기초적인 fine-tuning만 된 것으로 아직도 성능 향상의 여지가 큼.
2. 이 모델이 이미 능가하는 GPT 3.5는 사용자가 불편함을 느끼지 않을 수 있는 LLM 성능의 마지노선임.
2. 8B는 8bit 양자화 기준 8GB, 4bit 양자화 기준 4GB의 램을 요구하기 때문에 On-device 구현의 마지노선 사이즈임.
위와 같습니다. 즉 성능, 용량적인 면에서 On-device LLM 구현의 9부 능선을 넘었다는거죠. 메타가 이번에 8B 버전의 성능 향상에 특히 노력한 것도 다분히 의도적으로 보이구요.
현실적으로 현재의 Galaxy AI와 같이 대부분의 처리를 서버에 의존하는 방법은 지속 가능하지 않습니다. 삼성이 부담해야 하는 서버비 or 로열티적인 면에서도 그렇구요. 사용자 경험 측면에서도 일단 데이터 사용량과 레이턴시를 무시할 수 없으니까요.
결국 나아가야 하는 방향은 구글과 애플이 누구보다 잘 알고 있듯이 On-device 탑재입니다. AI 기능을 사용할 때마다 램에 몇기가씩 로드할수는 없으니 상시 로딩해 놓는것에 가깝게 준비해야겠죠. 즉, 내년부터 공개될 진정한 AI 스마트폰의 램은 최소 4GB는 빼고 보셔야 할겁니다. 12GB면 8+4GB 이런 느낌인거죠.
온디바이스로 항상 나를 위해 준비된 GPT 3.5라니, 생각만 해도 너무 좋습니다. 이와중에 S25는 여전히 8GB Variant가 존재한다는 소문이 있던데.. 제정신인가 싶습니다. 8GB 모델은 One UI 8 업뎃시 AI 기능 제외, 이런 헤드라인 감당할 수 있나요?
+추가) 에이, 이 사람 또 호들갑떠네. 이런 생각이 드신다면 바로 사용해보시길 권합니다.
https://llama3.replicate.dev/
여기서 8B 고르시면 바로 써보실 수 있습니다. 깜짝 놀라실걸요.
8기가램은이제 폐기처분해야..