
미니 잘 몰랐는데 LLM에서 맥이 완전 가성비군요...?
- WayBack
- 조회 수 2151
- 2025.03.18. 00:26
오히려 LLM 돌리는 사람들 입장에서는 맥 스튜디오가 너무 싸서 쓴다라는 소리 까지 나온다는데
일반 PC 계열로는 사실 좋은 그래픽 카드 몇개씩 떡칠을 해야 가능하다는데 이런 분위기가 형성이 되는 것도 신기하네요. ㄷㄷ
램 대역폭 때문에 그런 것 같은데 일반 PC에서는 이런 구조가 힘든 걸까요...?
루나레이크 처럼 애플 SoC 따라하면 가능할 수도 있을 것 같긴 한데..






































개인 용도로, inference 만 할 용도라면 맥이 생각보다 괜찮긴 합니다. 특히 맥북 프로같이 휴대 가능한 폼팩터에서는 대체제가 없어요. 제가 사용하는 RTX 4070 모바일만 해도 인퍼런스 시에 80와트 넘게 사용하는데, M4 프로는 SoC 전체가 20와트 내외만 먹으니까요. 램도 통합 메모리라서 큰 모델들도 일단 돌아는 가고, 토큰 생성 속도도 의외로 그렇게 느리진 않습니다. SSD 도 빨라서 여러 모델 올렸다 내리는 속도도 상당히 빠릅니다.
다만 윗 분들이 지적하셨듯이 이게 서버로 만들것을 고려하면 별로일 것 같네요. 아무리 통합 메모리라고 해도, GPU 깡성능과 메모리 대역폭이 너무 떨어집니다.












말씀대로 3090 2개 묶는게 토큰 생성 속도로는 가성비이긴 한데, 제 경험으로는...
1. 다수의 GPU 을 사용하기 위해서는 모델을 쪼개고 (model, data parallel) torch.distributed, NCCL 와 같은 GPU 간 통신 라이브러리를 추가로 활용해야 함
2. 일반적인 마더보드에서는 PCI-E 레인개수 문제로 한쪽 GPU가 절름발이가 되기 쉬움
3. 폭증하는 전력 소모량 (3080 에서 인퍼런스 시 350W 가량 소모)
에 따라서 고려할 사항들이 자꾸 붙기 시작합니다. 나는 그런거 모르겠고 그냥 LLM 추론기능만 가지고 코딩, 챗봇 기능 등등만 사용할거다! 하면 그냥 뇌 비우고 하드웨어 하나 사면 모든게 끝나는 맥이 편한 면이 있긴 합니다.









직접 보고 확인하시면 되겠습니다. 병렬화로 생기는 병목은 썬볼 "따위"로는 해결이 매우 힘듭니다.


추론용으로 개인이 돌려볼까 하는 목적이면 꽤 매력적인 선택지더라고요. 물론 엔비디아가 제일 좋긴 할텐데 고용량 vram 엔비디아 글카 가격들이 우주돌파를 해서 쩝
번외로 메테오레이크 기반 NUC에서 시도하는 경우(...)가 있긴 했습니다.


이 용도로도 이미 충분히 가성비 좋은 대체품이 나왔습니다.
AI MAX+ 395에다가 128GB달린 보드가 $1699인데 여기에 나머지 부품 대충 끼워서 조립하면 됩니다.
(귀찮으신분들을 위한 완제품도 있습니다. 1TB에 윈도우 넣으니 대충 $2316 나오네요)
https://frame.work/products/framework-desktop-mainboard-amd-ryzen-ai-max-300-series
성능도 제법 잘 나오는듯 하구요.
맥 스튜디오 젤 싼거 $1999에 램 36GB인데
128GB를 넣는 순간 $3499까지 오르다보니 가성비와는 점점 멀어지는군요.








https://www.amd.com/en/resources/support-articles/faqs/PA-280.html
정말 아무런 근거 없이 우기기만 하는거 쉽지 않네요. AMD 기술문서에서 이미 unified라고 명시하고 있고요, 애플의 통합 메모리는 엔비디아 기술문서의 통합 메모리랑 다른 걸로 알고 있는데 혹시 같다는 근거가 무엇인가요?

https://en.m.wikipedia.org/wiki/Uniform_memory_access
원래 명칭은 Uniform이 맞고, 그리고 엔당/애플 Unified Memory가 같다는 게 아니라 검색하면 다이어그램 뜹니다. 먼저 말씀해주신 방식은 영역을 나눠서 시스템 램+VRAM 이렇게 가는 구조면 Unified Memory는 이런 구조입니다.






그리고 AMD 링크 확인해보니 이건 Access가 아니라 아키텍쳐네요.
1.3. 공유 메모리 아키텍처 (Unified Memory Architecture)[편집]
Unified Memory Architecture의 약자로, 균등 메모리 접근(Uniform Memory Access)과 같은 머릿 글자이지만 메모리 관련 용어라는 공통점 말고는 의미가 전혀 다르다. 서로 다른 복수의 멀티프로세서 혹은 멀티코어 프로세서들이 하나의 메모리에 접근할 수 있는 구조로 이렇게만 설명하면 잘 와닿지 않지만, 이미 널리 채택되었던 메인보드에 탑재된 온보드 그래픽이나 CPU 내장 그래픽의 메인(시스템) 메모리 공유 기능을 떠오르면 쉽게 이해할 수 있다.
이 부분 확인하세요.






대역폭도 있고 일반적인 컨슈머용 그래픽 비램으로는 못따라가는 깡패 램 용량도 있을 것 같네용