
미니 잡담: 말리는 면적 대 성능비와 이론상 성능 대 실성능간 괴리가...
- Section31
- 조회 수 961
- 2023.11.14. 23:50
말리는 크게 두 가지 면에서 워낙 거시기한 것으로 알려져 있다고 합니다.
1) 하나는 이전에 악명이 자자했던 파멸적인(?) 단위면적당 성능
2) 또 하나는 이론상 FP32 성능 (GFlops)과 실성능간의 심각한 괴리
말리는 기본적으로 타일 셰이더를 기본 단위로 합니다. 즉, 여러 개의 "타일"을 깔아서 성능을 추구하는 방식이죠.
결국 클럭을 낮추려면 타일을 많이 깔아야 하는데 이러면 면적이 어마무시하게 커지게 됩니다.
그렇다고 면적을 줄이자니 클럭을 올려야 되고 이러면 소비전력 폭증과 전성비 저하로 이어질 수도 있습니다.
예를 들어, 하이실리콘 기린 9000은 Mali-G78을 무려 24코어를 탑재했는데,
이 결과 CPU가 차지하는 부분보다 GPU가 차지하는 부분이 무려 2배 가까이에 달했습니다.
디멘시티 9200은 Immortalis-G715를 11코어 깔았는데, 면적 자체는 아드레노 740과 거의 비슷했습니다만,
성능과 전성비가 매우 후달려서 비판을 받았습니다. 특히 전설의 19W 소비전력량....
디멘시티 9300에 탑재된 이모탈리스 G720도 이론상 FP32는 계산해보면 거의 6000 GFlops에 달합니다.
이건 아드레노 750의 이론상 FP32인 2774 GFlops의 2배를 넘는 수준입니다.
그러나 실성능은 아드레노 750 대비 (AZH 기준, 최고치) 5% 정도 더 좋은 수준에 그쳤습니다.
이렇듯 아직 말리는 이론상 FP32와 실성능간의 괴리가 정말로 극심한 상태입니다(...).

Galaxy Note9 512GB
- 이후 플랜: UNKNOWN
[Tablet]
Galaxy Tab S6 Lite
- 이후 플랜: iPad Air 6? 또는 mini 7?
[Laptop]
Dell XPS 13 9370 (이전) → (Galaxy Book3 (with ARC))
→ MacBook Air 15 M2 (2023년식)











GPU의 성능은 쉐이더 뿐만이 아니라 래스터라이저와 텍스쳐매핑유닛 등의 고정기능 유닛들의 성능 역시 중요하기에 FP32 성능만으로는 실제 성능을 전부 보긴 그렇습니다. 실지로 약간 극단적인 형태로 코인채굴 ASIC 중 이더리움 채굴용도의 ASIC들의 경우 GPU 아키텍쳐를 변용하여 채굴에 필요없는 그래픽스 고정유닛을 거의 또는 전부 걷어내고 쉐이더만 남겨놓은 형태의 물건들도 많지요. 말리의 FP32 성능 대비 실성능이 떨어지는 것도 사실 이 비율에서 기인합니다. 물론 상당히 오버헤드가 크고 제약사항이 많은 발적화된 ARM의 드라이버도 문제이긴 합니다만...
양으로 승부하니까 되긴되네요 ㅋㅋ