미니 모바일 AP 내에 들어가는 GPU 스펙 정리
- ATNT
- 조회 수 1559
- 2020.11.19. 19:29
G77 / G78은 일단 Diagram 상으로는 둘 다 동일한 스펙을 가지고 있습니다. 물론 G78이 전력이나 다이 크기 면에서는 더욱 최적화가 이뤄졌겠지요.
일단. 발할라 아키텍쳐는 MP1당 32개의 FMA 연산 유닛, 그리고 보통 말리는 FLOPS 발표할 때 SFU까지 끼워넣는데 SFU까지 합하면 80 ops/cycle의 연산이 가능합니다.
그리고 각 코어당 TMU는 4 Texel/cycle, ROP는 2 Pixel/cycle의 성능을 뽑아낼 수 있습니다.
엑시노스 990 (G77 MP11@800MHz) - 440SP : 44TMU : 22ROP - 704GFLOPS : 35GTex : 18GPix
엑시노스 1080 (G78 MP10) - 400SP : 40TMU : 20ROP - (700MHz라고 가정시)560GFLOPS : 28GTex : 14GPix
엑시노스 2100 (G78 MP14) - 560SP : 56TMU : 28ROP - (700MHz라고 가정시)784GFLOPS : 39GTex : 20GPix
내년에는 875와 2100이 맞붙을 것이고, 내후년쯤 되어야 RDNA2 달린 엑시노스가 나올텐데 그때쯤 되면 1024~1536SP 정도 구성으로 벌크업 하고 나와야 아드레노랑 상대가 될듯 하네요.
Mali-G76은 각 실행유닛당 8-Wide ALU, 그리고 MP1당 이 EU가 3개씩 들어가지요. MP1당 TMU와 ROP는 각각 2개씩 들어갑니다. 실제 엑시노스 9820은 MP12의 구성을 갖추었지요.
엑시노스 9820 (G76 MP12@702MHz) - 288(+ ??)SP : 24TMU : 24ROP - 404(+ ???)GFLOPS : 17GTex : 17GPix
페이퍼 스펙은 낮은데, 오히려 이정도 스펙으로 A640과 맞붙은게 대단하게 느껴지네요.
물론 덕분에 MP12 구성이라서 다이사이즈는 저 멀리 날아가고, 실제 SP:TMU:ROP 수는 보잘것 없으면서도, 말리 특유의 비효율성 덕분에 엑시노스가 욕 씨게 먹었지만요.
(해당 자료는 퀄컴 공식 자료이며, 저 연산성능은 585MHz로 돌아간 결과인 것으로 보입니다.)
Adreno 600 시리즈는 보통 MP2 구성으로 이뤄져 있습니다.
845에 들어간 A630은 MP1당 256ALU, 855에 들어간 A640은 MP1당 384, 865에 들어간 A650은 MP1당 512개의 구성을 가집니다.
각 MP1당 TMU는 12, 24, 24 개 들어가며, ROP는 8, 8, 12개 들어갑니다.
연산성능은 ALU * 2 * 클럭으로 딱 떨어지지는 않습니다. 그래서 위의 사진을 보면 텍스쳐 필레이트는 585M*48=28.1G, 픽셀 필레이트는 585M*16=9.4G로 정확히 맞아 떨어지지만, FP32 연산성능은 585M*768*2=899G가 아닌 585M*816*2=955G라고 광고하고 있지요. 아마 Mali처럼 부수적인 SFU(아마 SP 수로 따지면 48SP정도일겁니다.)같은 부분의 연산성능까지 합산한 결과일 것입니다.
스냅드래곤 845 (Adreno 630 MP2@710MHz) - 512(+48?)SP : 24TMU : 16ROP - 795GFLOPS : 17GTex : 11GPix
스냅드래곤 855 (Adreno 640 MP2@585MHz) - 768(+48?)SP : 48TMU : 16ROP - 955GFLOPS : 28GTex : 9.4GPix
스냅드래곤 865 (Adreno 650 MP2@587MHz) - 1024(+48?)SP : 48TMU : 24ROP - 1.26TFLOPS : 28GTex : 14GPix
865 기준으로 경쟁상대인 990과 비교시 연산성능은 앞지르고, 텍스쳐 필레이트나 픽셀 필레이트는 딸리는 것을 볼 수 있지요. 뭐 예전 Mali-400MP4 vs A220/A225때부터 지금까지 이건 종특인거 같습니다. 다만 Geekbench 렌더스크립트 기준으로는 결과가 들쑥날쑥 개판인걸 보면 제 성능이 잘 발휘되는거 같진 않네요.
A14는 MP4 구성, M1은 동일한 GPU를 MP7/8 구성으로 이뤘습니다.
일전에 제가 예측했고, 이번에 Anandtech 에서 적었듯이, 8코어 기준으로 128개의 EU, 그리고 1024개의 SP와 64개의 TMU, 32개의 ROP를 가진 것으로 보입니다.
A14 (PowerVR 마개조 자체 MP4) - 512SP : 32TMU : 16ROP - (700MHz라고 가정시)717GFLOPS : 22GTex : 11GPix
M1 (PowerVR 마개조 자체 MP8@1275MHz) - 1024SP : 64ROP : 32TMU - 2.6TFLOPS : 82GTex : 41GPix
클럭이 드러나지 않은 GPU들은 일단 무난하게 모두 700MHz라고 가정하고 계산한겁니다.
의외로 A14의 결과가 꽤 낮은데 그만큼 애플이 Metal API를 잘 이용해 먹고 있다는 것이 아닐까 싶네요.
M1은 저 스펙 보고 1050Ti~1650쯤은 나오지 않을까 싶었는데, 실제로도 그정도로 나오더라고요.
A14 824GFLOPS
스냅865+ 1376GFLOPS
엑시990 1126GFLOPS
https://www.cpu-monkey.com/en/cpu_benchmark-igpu_fp32_single_precision_gflops-11
이런 류의 사이트 신뢰도가 바닥인게
https://www.cpu-monkey.com/en/igpu-arm_mali_g72_mp18-201
여기서 보면 9810의 GPU는 FP32 연산성능이 무슨 561GFLOPs 라고 하더라고요. 애초에 클럭을 0.85GHz로 잡은 시점에서 맞을 수가 없지요.
https://www.anandtech.com/show/12520/the-galaxy-s9-review/6
실제 아난드텍쪽 데이터 참고하면
On the Exynos Galaxy S9 we also see the new ARM Mali G72MP18 running at 572 MHz. The new GPU doesn’t have any higher level changes in raw specifications, however it promises micro-architectural improvements that improves the IPC of the GPU. A raw theoretical spec calculation results in 247 GFLOPs (FMADD only – 370 GFLOPs when adding the FADD units), 10.3 GTexels and GPixels/s.
https://www.cpu-monkey.com/en/igpu-apple_a13-156
게다가 유일한 힌트가 MP4라는 것 밖에 드러나지 않은 A13 GPU의 GFLOPS 값은 어떻게 나온건지도 궁금하네요.
https://www.cpu-monkey.com/en/igpu-apple_a14-180
A14는 아예 셰이더 수 0 이라고 적혀있더라고요.
클럭도, SP 수도 모르는 GPU를 대체 어떻게 이론상 FLOP 값을 예지한건지 궁금하긴 하네요.
퀄컴 공식 자료 기준으로 954.7 GFLOPs인 물건이
https://www.cpu-monkey.com/en/igpu-qualcomm_adreno_640-160
여기서는 967 GFLOPS이 되었네요.
그래도 어느정도는 맞긴 한데 완전히 맞다고 볼 수는 없을거 같습니다.
그거야 전 모르지요 ㅋㅋ
그런데 엑시노스 측에는 꽤 많은 페널티가 있는거 같네요.
1. 아무리 잘 나와도 게임사쪽에서 최적화 안해주면 결국 성능 말아먹는게 Mali 입니다.
2. DS사업부가 짜는 스케쥴러가 개판이고 IM사업부 측에서도 내부적으로 fps 제한을 빡세게 걸지요.
3.(과거형이지만) 게임이나 3D 구동시에도 결국 어느정도 CPU는 돌아가는데 M5의 전력효율은 A77의 절반입니다. 그래서 쓰로틀링이 더 빡세게 걸릴수밖에... Cortex-X1이면 그래도 TDP 측면에서 여유가 생기지 않을까 싶네요.
4. 7LPE는 멀쩡했지만 유독 7LPP에서 Speed Gain이 7FFP는 커녕 7FF 수준에 머물렀습니다. 5LPE도 잘 나와줘야 할텐데 걱정이네요. 퀄컴 돌아온걸 보면 이쪽으로는 그래도 좀 나아진거 같지만요.
저 4가지가 제대로 씨게 겹친게 990이었지요. 오죽하면 Peak 성능은 865랑 비슷해도 Sustained 성능은 9820이랑 노는... 오히려 9825가 쓰로틀링 덜 걸린걸 생각하면 적어도 게이밍용으로는 9825가 더 괜찮지 않을까 싶을 정도였지요.
스냅855 아드레노가 675mhz로 알고있었고
스냅845 아드레노가 710mhz로 알고있습니다
https://www.qualcomm.com/snapdragon/smartphones/asus-rog-phone-ii
https://www.anandtech.com/show/12420/snapdragon-845-performance-preview/4
말리가 성능을 뽑아내려면 코어가 많이 필요하군요..