미니 T720 -> G78이면 상승폭 엄청나겠네요
- ATNT
- 조회 수 296
- 2020.11.26. 00:46
https://www.anandtech.com/show/8234/arms-mali-midgard-architecture-explored/4
https://www.anandtech.com/show/8234/arms-mali-midgard-architecture-explored/5
T720 내에는 ALU 1개, T760 내에는 ALU 2개
ARM 발표대로 SFU 포함시 각 ALU당 17FLOPS, SFU 제외시 10FLOPS/cycle 처리
결론적으로 T720은 1코어당 17FLOPS, 1텍셀, 1픽셀 처리
https://www.anandtech.com/show/14385/arm-announces-malig77-gpu/2
https://images.anandtech.com/doci/14385/Mali-G77-21.png
https://images.anandtech.com/doci/14385/Mali-G77-19.png
Within the actual processing units (clusters) we have four fetch units that are issuing into the arithmetic units. Each of the fetch units has a tightly coupled register file, as well as a forwarding buffer that reduces latency to access the register file.
The FMA ALU supports 16 FP32 FMA per cycle, double that for FP16 and again double that for INT8 dot-products. The convert unit handles basic integer operations and naturally type conversion operations, as well as serves as the branch port.
The SFU is 4-wide as opposed to 16-wide because it handles less frequently used instructions that don’t need quite as large throughput.
다이아그램 내의 CVT는 오직 정수연산만 처리
FMA 유닛은 16-wide 구조로 1사이클동안 16번의 FMA 처리
SFU 유닛은 4-wide 구조
각 프로세싱 유닛당 FMA 1개, SFU 1개, 1코어 내의 프로세싱 유닛은 2개
즉 1코어당 80 FLOPS, SFU 제외시 64 FLOPS 및 4텍셀, 2픽셀을 처리할 수 있다는 의미지요.
SFU 제외하면 부동소숫점 연산능력은 1사이클당 6.4배, 텍스쳐 필레이트는 4배, 픽셀 필레이트는 2배 향상된 셈이지요.
여기에 5LPE 공정으로 인한 클럭 향상분, 더 발전한 메모리 압축 기술 등등등이 더해지면 엄청난 성능 향상이 가능하지 않을까 싶네요. 아무리 보수적으로 잡아서 MP1, 동일 클럭이라고 가정하여도 일단 9110과 비교하여 4배, 만약 MP2 구성이라면 그 이상도 가능하다는 의미지요.
G78MP2라면 T720MP1과 비교하여 동일 클럭에 FP32 연산성능 13배, 텍스쳐 필레이트는 8배, 픽셀 필레이트는 4배입니다. 거기에다가 단순히 SP:TMU:ROP 수로 드러나는게 아닌 각종 기술 개선까지 겹치면... 오우야
반대로 생각해보면 그동안 9110에 들어갔던 GPU는 생각만 해도 눈물이 나네요