미니 Anandtech M1 Max 분석 요약
- 1N9
- 조회 수 1971
- 2021.10.26. 10:42
<거대한 메모리 대역폭>
- 애플은 발표 도중 400GB/s 대역폭을 매우 강조했음.
- 이는 너무나도 큰 수치이기 때문에 먼저 확인해봐야 할 부분임.
- 코어 클럭, L1, L2 캐시에서는 아무 변화가 없었음.
- 그러나 시스템 캐시는 큰 변화가 있음 > 용량이 8MB에서 48MB로 크게 증가함.
- 그러나 더 복잡한 구조, 더 큰 용량, LPDDR5의 타이밍 증가는 메모리를 약간 느리게 만듬.
- 정확히는 M1 대비 메모리 액세스 시간이 약 15ns 느려짐. (128MB 테스트 기준)
- 그러나 아마 거대한 용량 증가로 캐시 적중율이 높아 실제 성능 하락은 거의 없을 것.
- 400GB/s 대역폭은 서버급의 엄청난 칩에서나 가능한 것으로, CPU 코어도 이런 대역폭을 사용할 수 있는지가 의문이었음.
- 불행히도 그렇지는 않음 > CPU 코어는 400GB/s 대역폭을 완전히 활용하지는 않음.
- 단일 스레드로 메모리에 최대 102GB/s의 부하를 줄 수 있음.
- 이는 매우 인상적이며 여러 면에서 업계의 다른 어떤 설계보다 엄청남.
- M1에서는 CPU 코어가 메모리 대역폭의 한계에 가로막혔음.
- 이번에는 반대의 상황임: CPU 코어 성능의 한계가 메모리 대역폭보다 작음.
- 4개 이상의 성능코어 스레드를 사용해도 메모리에 224GB/s 이상의 부하를 줄 수 없었음.
- 효율 코어 스레드까지 같이 동작했을 때 최대 243GB/s의 부하를 줄 수 있었음.
- 이는 물론 거대한 것이고 업계의 다른 어떤 설계도 무색하게 만들 수 있지만 400GB/s라는 한계만큼은 아님.
- 그렇다면 M1 Max의 대역폭은 왜 그렇게 큰 것일까?
- GPU 때문이라고 말할 수 있겠지만, 3D 렌더링에서도 메모리에 90GB/s 까지의 부하만 걸림.
- GPU가 400GB/s를 거의 온전히 사용하는 작업이 있겠지만, 지금은 그게 뭔지 잘 모르겠음.
- 아마 CPU, GPU, NPU 등을 동시에 사용하는 작업일 것.
- M1 Max의 새로운 미디어 엔진은 이제 ProRes RAW 형식을 디코딩 및 인코딩할 수 있음.
- 우리는 비트레이트 1.59Gbps의 5K 12비트 비디오를 테스트함.
- M1 Max는 실시간으로 재생할 수 있을 뿐만 아니라 여러 배의 속도로 즉시 탐색할 수 있음.
- 5950X 에서 동일한 작업을 수행하면 프레임은 한 자리수임.
<전력 소모 - 넓은 범위, 정해진 TDP는 없음>
- 애플은 칩 정보에서 TDP를 광고하지 않음.
- 아마 그런 것이 실제로 존재하지 않기 때문일 것임 > 발열에 따라 유동적으로 전력 제한을 설정할 것.
- 그러나 다양한 작업마다 평균 전력 소모는 측정할 수 있음
- 아이들 상태에서 0.2W > 경쟁사에 비해 매우 낮은 수치로, 맥북의 환상적인 배터리타임을 설명해줌.
- 싱글 스레드 워크로드에서는 약 11W 소모한다고 나오지만, 벽면 AC 전력에서는 8.7W로 나옴.
- 즉, 소프트웨어가 사용량을 과장해서 보고했을 가능성이 있음.
- 메모리 부하가 거의 없는 워크로드에서는 약 5W의 전력소모를 나타냄.
- 즉, 실제로 CPU 클러스터는 약 4~5W만 소모하여 M1과 크게 차이나지 않는 수준인 것으로 보임.
- 아마 M1보다 높은 패키지 전력소모는 M1보다 훨씬 큰 메모리 시스템 때문일 가능성이 높음.
- 멀티 스레드 워크로드에서는 패키지 기준 34~43W, 벽면 AC 전력 기준 40~62W를 소모함.
- 차이가 커지는 경우는 DRAM을 많이 사용하는 워크로드인 것으로 보아 추가적인 전력 소모는 DRAM 때문일 것.
- GPU는 Aztec High Offscreen 기준 패키지 전력 56.8W를 기록했으며, GPU 자체는 43W를 소모함.
- CPU와 GPU에 동시 부하를 걸었을 때는 패키지 전력 92W, 벽면 AC 전력 120W를 소모함.
- 이러한 전력 소모는 꽤 높은 수치임.
- 이러한 부하가 얼마나 오래 지속되는지 테스트하지는 않았지만, 시스템은 온도가 버티는 최대한으로 성능을 유지하는 것으로 보임.
- i9-11980HK와 RTX3080 모바일을 탑재한 MSI GE76 노트북과 비교해 봄.
- 단일 스레드 워크로드에서 애플은 인텔의 최고 CPU에 비해 엄청난 성능과 전력 이점을 제공.
- 시네벤치는 M1 Max의 점수가 조금 낮은 드문 경우임.
- 그러나 M1 Max가 8.7W, 인텔이 43.5W를 소모함에도 불구하고 둘의 점수는 거의 비슷함.
- 다른 벤치마크에서는 애플의 점수가 크게 앞서거나 혹은 비슷함.
- 애플 실리콘과 인텔은 전성비가 2.5~3배 차이남.
- 멀티 스레드 워크로드에서 인텔은 패키지 80W, AC 전력 기준 105~110W를 소모함.
- 애플이 더 높은 성능으로도 4~6배의 전성비를 보여주기 때문에, 비슷한 성능에서는 전성비 차이가 더 클 것임.
- Aztec High Offscreen에서 RTX 3080은 200W를 사용하며 266fps, M1 Max는 70W를 사용하며 307fps를 기록.
- 인텔 CPU와 엔비디아 GPU에 동시 부하를 걸면 최대 256W를 사용, 이는 애플의 두 배 이상.
- i9-11980HK는 별로 효율적인 칩이 아니며, AMD 5980HS는 더 나을 것.
- 하지만 그래도 애플이 훨씬 앞서 있을 것으로 추측함.
<CPU 싱글 스레드 성능: M1과 큰 차이 없음>
- M1 Max는 8개의 성능 코어와 2개의 효율 코어로 구성됨.
- M1과 똑같은 세대의 CPU IP를 사용.
- 성능 코어 클럭: 싱글코어에서 피크 3228MHz, 4코어 활성화 시 3036MHz
- 효율 코어 클럭: 피크 2064MHz
- 4코어짜리 클러스터 2개로 구성되며 완전히 별도로 동작 가능하기 때문에, 하나의 클러스터에서는 4코어 3036MHz로 동작하는 동시에 반대쪽 클러스터는 싱글코어 3228MHz로 동작할 수도 있음.
- M1 Max는 워크로드에 따라 경쟁사들의 다른 칩보다 낫거나 비슷하지만 M1에 비해 크게 나아지지는 않았음.
- 여전히 노트북 칩 중 최고 수준이며 데스크탑 최상위 칩과 동등하지만 지평을 바꿀 정도는 아님.
<CPU 멀티 스레드 성능: 진정한 괴물>
- 여태까지의 애플 실리콘 중 가장 거대한 칩으로, 인텔과 AMD의 최상위 노트북용 칩을 분명하게 앞서고 있음.
- 성능 차이는 매우 크며, 메모리를 혹사시키는 워크로드에서 CPU의 성능을 받쳐줄 수 있는 메모리 시스템이 얼마나 진보된 것인지 보여줌.
- SPECint에서 경쟁사 노트북용 칩보다 37% 우수하며, 전성비도 매우 우수함.
- 심지어는 11900K나 5800X 같은 데스크탑용 칩을 능가함.
- SPECfp에서는 압도적이라 비교군이 없음. 두 번째로 뛰어난 11980HK의 두 배에 달하는 성능.
- 심지어 패키지 전력이 142W인 16코어 5950X를 앞서는 결과를 보여줌.
- 이건 정말 터무니없고 우리가 본 적 없는 상황임.
- 효율 코어를 빼고 8개의 성능 코어만 활성화하면 성능이 약 7~9% 내려감.
- 효율 코어 갯수가 줄었기 때문에 전체 멀티스레드 성능에서 M1 대비 효율 코어의 비중이 훨씬 적음.
- 특정 워크로드에서 애플이 현저히 좋은 결과를 나타내는 것은 이 칩이 무엇에 중점을 두고 설계되었나를 질문하게 함.
- 이런 설계를 본 적이 없기 때문에 성급히 결론을 낼 수는 없지만, 비디오 편집/오디오 마스터링/컴파일링 등 대규모 생산성 앱에 최적화하고 있다고 유추해볼 수 있음.
- 이는 모두 M1 Max의 마이크로아키텍쳐 특성이 빛을 발할 수 있는 분야이며, 다른 어떤 경쟁자보다 성능이 뛰어남.
<GPU 성능: 2~4배 향상된 생산성, 약간의 게임>
- M1 Max의 진짜 주인공은 GPU와 이를 뒷받침해주는 시스템.
- 570억개에 달하는 거대한 트랜지스터 중 얼마만큼이 GPU인지는 분명하지 않지만, 4배나 증가한 요소는 GPU 뿐.
- 작년에 애플은 경쟁력 있는 노트북용 하이엔드 CPU를 개발할 수 있다는 걸 증명했고, 올해는 GPU에서도 같은 시도를 함.
- GPU에는 거대한 메모리 대역폭이 필요함.
- 일반적으로 외부 GPU에는 HBM2나 GDDR6 같은 고속 인터페이스를 사용하는 전용 DRAM이 제공됨.
- 그러나 애플은 512비트 크기의 놀라운 LPDDR5 메모리로 이를 충족시킴.
- 이런 식으로 LPDDR을 사용하는 것은 불가능하진 않았지만, 소비자 제품에서는 처음.
- 이렇게 확보한 409.6GB/s의 메모리 대역폭은 엔비디아의 가장 빠른 노트북용 그래픽이 제공하는 것과 맞먹음.
- 이는 또한 궁극적으로 하이엔드 GPU와 동등한 대역폭을 제공하며 전력을 매우 절감하고 발열을 줄임.
- Aztec Ruins 벤치마크에서 애플은 RTX3080보다 단지 6프레임 뒤처져 2위를 차지함.
- 이 벤치마크는 Metal을 우수하게 구현하기 때문에, 모든 것이 잘 최적화되었을 때 애플이 도달할 수 있는 수준을 보여줌.
- 또한 M1과 M1 Pro, M1 Max는 거의 정확하게 2배씩의 성능 향상을 보여줌.
- 게이밍 벤치마크에서, 불행하게도 애플의 강력한 GPU는 제대로 발휘되지 못함.
- M1 Max는 섀도우 오브 툼 레이더와 보더랜드의 벤치마크에서 최하위를 차지.
- 로제타를 통한 포팅은 댓가를 지불해야 하기 때문에 게이밍에서 나쁜 경험을 제공함.
- 어도비 프리미어 프로의 Puget 벤치마크 점수는 RTX3080을 탑재한 하이엔드 데스크탑에 견줄 만한 점수임.
- 다빈치 리졸브에서도 훌륭한 성능을 보여주며, GPU 가속을 통해 이점을 누릴 수 있음.
<결론>
- M1 Max는 파워 유저를 염두에 두고 만들어진 진정한 새로운 SoC임.
- 크게 기대했음에도 불구하고 그 이상을 보여주는 성능.
- CPU 파트에서는 성능 코어를 2배로 늘리고 자체 L2를 포함한 새로운 클러스터로 확장.
- 이를 통해 노트북에서는 불가능하다고 여겨지던 성능 수치를 달성함.
- 경쟁사의 노트북용 칩을 능가할 뿐 아니라, 최고의 데스크탑 시스템과 경쟁할 수 있음.
- M1 Max를 완전히 앞지르기 위해서는 서버급 하드웨어가 필요함. 터무니없는 성능임.
- GPU 파트에서는 M1 대비 2~4배 좋아져 프로 유저들에게 매우 우수한 생산성을 제공함.
- 게임은 macOS 생태계에서 아주 애매한 위치에 있음. 아마 새 칩의 성능을 게임에서 활용하기 위해서는 매우 오랜 시간이 필요할 듯.
- 컨텐츠 제작을 용이하게 하는 미디어 엔진 또한 M1 Max의 주요 장점 중 하나임.
- 특히 ProRes를 사용한다면 워크플로우가 몇 배 이상 향상될 것임.
- 따라서 이 분야의 많은 사용자들이 빠르게 새로운 맥북을 구매하게 될 것.
- 전반적 성능, 특정 분야 가속, 전력 효율성의 조합은 현재 다른 플랫폼에서는 찾아볼 수 없는 수준.
- 새로운 맥북 프로는 파워 유저들을 위한 최고의 노트북일 뿐 아니라 작업에 가장 적합한 기기일 것.
그 부분은 안드레이 아저씨도 본문에서 어느 정도 설명하고는 있는데
(비록 글 전체에서 애플실리콘에 대한 열정이 묻어나긴 하지만.... 이 아저씨 M1 이후로 좀 애플실리콘 빠 된거같아요)
GFXBench 만큼 메탈을 우수하게 잘 지원하는 앱이 아직 많지 않기 때문에 이 그래픽 벤치마크는 모든 것이 잘 되었을 경우에 애플이 가진 잠재력을 보여주는 것이다... 이런 식으로 말했죠. 즉 아직 너무 독단적이라서 잠재력을 100% 못꺼내고 있는... 게임은 들이는 노력에 비해서 돈 안되니 일부러 버린 거라고 쳐도 작업영역에서도 아직 네이티브 애플실리콘 앱이 쏟아지는 수준은 아니니까요.
정말 어나더 레벨이네요..... 궁금해진게 이게 아이폰에 넣으려고 모바일 arm칩을 개발하다가 너무 잘되어서 데스크톱까지 넘보는(?) 상황인건가요 아니면 처음부터 아이폰 - 아이패드 - 맥북 이렇게 연결하려고 개발한걸까요?