미니 안드로이드 온디바이스로 gemma2 2B 돌리기
- RASBI
- 조회 수 554
- 2024.11.05. 13:31
Private ai라는 앱을 이용하면 인터넷 연결없이 온디바이스로 언어모델을 돌릴 수 있습니다.
위에는 기본적으로 제공되는 언어모델입니다. 15000원을 주면 사용자가 모델을 직접 import하거나 매개변수가 더 큰 다른 모델을 받을 수 있습니다
저는 gemma2 2B를 돌려봤습니다. 아마 매개변수가 20억개인가 봅니다. 설정에서 토큰 사이즈? Context size를 바꿀수 있길래 4096 tokens로 설정해주었습니다.
한국어로 질문해도 잘 대답이 나옵니다. 물론 인터넷 연결은 없어도 됩니다.
문제점 (기종은 폴드4 / 12GB RAM / 8 +GEN 1):
1. 느립니다. 1초에 2글자 ~ 4글자정도 나오는것 같습니다.
2. 기기에서 발열이 생깁니다. 아마 연산을 하면서 생기는것 같습니다.
3. 영어로 물어보니 더 빠릅니다. 역시 영어로 하는게 답변이 빠릅니다.
램은 2.3GB 먹는걸로 나오네요. 다운 받은 모델사이즈가 2GB정도 되니 모델 전체가 램에 올라가서 작업이 이루어지는것 같습니다.
램 8GB 기기에서는 가벼운 모델도 조금 빡셀 수 있겠다~싶습니다. 그리고 역시 램도 램이지만 기기 발열이 대단하네요ㅋㅋ 게임돌리는것 같습니다.
이미 작년 이맘때 스냅드래곤 8 Gen 3와 엑시노스 2400 모두 온디바이스 이미지 생성을 발표 과정에서 시연했습니다
https://m.youtube.com/watch?v=R5MCj5CFReY
llama.cpp 의 모바일 포팅 버전인데, 아직 vulkan backend로 GPU지원이 안되서 CPU만으로 돌릴 수 있군요.
https://github.com/ggerganov/llama.cpp/blob/master/docs/android.md
SoC를 극강으로 갈굴테니 발열은 ㅎㄷㄷ 하겠네요.