미니 생일날 잡담: 예상 난이도가 극악인 2400의 GPU
- Section31
- 조회 수 722
- 2023.02.14. 15:13
https://meeco.kr/mini/36807079
↑ ....(1) 윗 글에서 계속 이어집니다.
일전에 구글 텐서 G3(Google Tensor G3; "텐서3") 스펙 예상 관련하여 마지막 헛도는 열쇠인 GPU 값에 대해 쓴 글이 있었고... (하단 링크 포스팅(↓표) 참고) 제일 예상해보기 어려운 건 엑시노스 2400의 GPU 구성입니다.
↓ ....(2)
https://meeco.kr/mini/36812500
현재 엑시노스 2400 (S5E9945? / 코드네임 "Root")은 (어쩌다) CPU 코어 구성이 뚫렸고(클럭도 대략 짐작값 유추를 했었으니 하단 링크 포스팅(↓표) 참고), NPU도 대략적인 성능 값이 벌써부터 나온데다, 예상 공정까지 나오는 등 나올 건 탈탈 털리고 있는 와중에, 딱 하나 아직까지 안 뚫린 게 있으니 그게 바로 GPU입니다.
↓ ....(3)
https://meeco.kr/mini/36805049
(1)의 포스팅에서 언급했듯이, 엑시노스 2200의 GPU(이하 Xclipse 920)는 모바일 RDNA2 아키텍처를 기반으로 하며, 스펙은 콜론으로 표기하면 384:24:6:3 (12, 8, 3, 1) 이고, GPU 클럭은 1,306 MHz입니다.
- 384:24:6:3 = ALU 수 : 실행 유닛(EU) 수 : 컴퓨트 유닛(CU) 수 : 워크그룹 프로세서(WGP) 수
- (12, 8, 3, 1) = 텍스쳐 매핑 유닛(TMU) 수, 렌더링 출력 파이프라인(ROP) 수, 레이 액셀러레이터(RA) 수, 래스터라이저 유닛(RZ) 수
- 실행 유닛: 24 = 12 TMU + 8 ROP + 3 RA + 1 RZ
- ALU 수: 384 = 통합셰이더(Unified Shaders) 192개 x2
- 이와 별개로 지오메트리 엔진 1개가 있다고 알려져 있습니다.
그리고 Xclipse 920은 코드네임은 Voyager(보이저)이고, gfx1040이라는 코드네임 또한 있습니다. 전자는 삼성전자에서, 후자는 AMD에서 부르는 코드네임일 가능성이 높습니다.
gfx1040이라는 코드네임에서 알 수 있듯이, 이는 2200의 GPU가 확실히 RDNA2 기반임을 짐작케 하는데, 이는 RDNA2의 AMD측 코드네임이 gfx1030이기 때문입니다.
다시 2400의 GPU라는 본론으로 돌아와보면, 이것의 구성을 예상해보는 것이 가장 어렵습니다. CPU/NPU는 어느 정도 뚫렸는데 말입니다.
Xclipse 920은 WGP 수가 셋, 2300은 들려오는 커널 정보에 따르면 WGP 수가 넷이라 합니다. 그렇다면 2400의 GPU의 WGP 수는 6 또는 8일 가능성이 있는데...
또 다른 루머인 다이 사이즈 증가(2200 대비 +30% 정도)를 고려해도 GPU가 극적으로 대폭 증가할 가능성은 여전히 물음표일 수 있으므로, 보수적으로 6 WGP로 잡아보면... (맨 윗글 포스팅 링크에서 나온 의견에 의함)
2400의 GPU 스펙 → ___:___:12:6 (__, __, __, __) 이렇게 8개 칸 중 2개가 채워집니다.
다음으로 2200의 다이샷 분석 그림에 따르면, Xclipse 920의 WGP 하나에는,
- ALU가 128개 (통합셰이더 수로 환산하면 64개)
- TMU가 4개, RA가 1개
있습니다. 그리고 이 3개 WGP에 대하여 대응하는 ROP 수가 8개입니다. AMD RDNA2의 Navi22 WGP와 비슷하면서도 모바일 환경에 맞게 바꿨다고 하므로(다이샷 그림을 참고로 했음), 차이가 있습니다.
1) RDNA2 기반으로 2200의 것을 차용하여 단순히 두 배로 늘렸다고 가정한다면,
2400의 GPU 스펙 → 768:48:12:6 (24, 16, 6, 2) 이렇게 8칸이 모두 채워집니다.
2) RDNA2 기반으로 하되, 2200을 바탕으로 유닛을 조정한다고 가정한다면,
2400의 GPU 스펙 → ___:___:12:6 (__, __, __, __) 에서 조정이 있을 수 있습니다. 그럴듯한 가능성을 생각해보면...
* ROP 수 조정. ROP는 손에 비유할 수 있기 때문에 연산장치가 많아도 ROP가 적으면 전체적인 그래픽 데이터 처리 속도는 느려지기 때문입니다. 따라서 ROP 수를 적절히 늘린 뒤 다른 계산 유닛(TMU, RA 등등)의 수를 조정하는 방법이 한 가지 있을 수 있겠고...
* 2200의 GPU가 퀄컴 Adreno 730에서 이전의 전형적인 래스터화 연산에서 밀렸기 때문에, 래스터라이저 수를 종전의 1개에서 2개로 늘릴 수도 있습니다.
* 레이 액셀러레이터 유닛은 Xclipse 920이 Adreno 740을 레이트레이싱 벤치마크에서 이겼기 때문에, 여기에 대해서는 크게 우려가 없을 듯합니다.
* 지오메트리 엔진은 1개가 WGP와 별도로 있을 것입니다.
3) RDNA2가 아니라 RDNA3 기반이라면,
이러면 상황이 상당히 복잡해집니다. RDNA3는 여기에 AI 액셀러레이터까지 끼어들게 됩니다.
결국 가장 큰 관건은 먼저 엑시노스 2400의 GPU에 대응하는 AMD측 코드네임을 파악하는 것입니다. 만약 코드네임이 gfx1100대라면 RDNA3 기반이고, 그렇지 않으면 RDNA2 기반일 것입니다.
그리고 또 한 가지 화두는 과연 클럭 스피드는 얼마가 될 것이냐는 점인데, Xclipse 920은 전술했듯이 1,306 MHz입니다. 그런데 이때는 삼성이 4LPE 공정에서 거하게 삽을 푸던 때라서 원래 목표 클럭으로 알려졌던 1,690 MHz에서 낮춘 값으로 알려져 있습니다.
그래서 4LPP+로 제조될 수 있다는 2400은, GPU 클럭이 1,600 MHz를 넘길 수 있을지가 관심사입니다.
8CU에 1900mhz 정도 나오면 8G3이랑 해볼만 할거다라 생각합니다