미니 엑시 2100 NPU 성능 13.6TOPs
- Aimyon
- 조회 수 708
- 2021.02.20. 15:35
구글 번역
삼성 모바일 AI 프로세서는 5.46mm 2로 더 작고 5nm 프로세스를 사용하여 총 623 개의 추론을 실행할 수있는 3 개의 코어를 구현합니다.
각 코어에는 벡터 처리 장치 및 1MB의 스크래치 패드와 함께 두 개의 하위 코어 ( '컨볼루션 엔진')가 있습니다. 각 하위 코어에는 가중치 (기능 맵 – 부분 합계 페처 및 1,024 개의 MAC 어레이 – 칩에> 6,000 개의 MAC)가 있습니다. 사이클 당 16 차원 벡터의 내적 64 개를 실행할 수 있습니다. 스크래치 패드는 레이어에 대한 모든 가중치, 입력 특성 맵, 출력 특성 맵 및 부분 합계를 보유하거나, 레이어가 한 번에 맞을 정도로 클 경우 해당 레이어의 타일을 보유합니다. 벡터 처리 장치는 정규화 및 소프트맥스와 같은 복잡한 비선형 함수를 실행합니다.
IBM의 링 버스와 달리 이 경우 코어는 DMA (직접 메모리 액세스)를 사용하는 보다 일반적인 버스로 연결됩니다.
낭비되는 프로세싱과 전력을 절약하기 위해 feature map zero-skipping 기능이 구현되었습니다. ISSCC 프레젠테이션에 따르면 "Inception-V3의 컨볼루션 레이어에 대한 MAC 사용률은 feature map zero-skipping으로 평균 36 % 향상 될 수 있습니다." "weight zero-skipping과 달리 feature map zero-skipping은 weight pruning와 같은 추가 훈련 단계없이 효과적인 성능과 에너지 효율성을 향상시킵니다."
이 칩은 550mV ~ 900mV, 332Mz ~ 1.2GHz 클럭킹에서 실행됩니다. 전력 및 성능은 가중치 정리없이 8 비트 Inception-V3 모델의 컨볼루션, 풀링 및 완전 연결 계층을 실행하는 동안 측정되었습니다. 전체 추론 처리량은 다중 스레드 CPU 작업에 해당하는 처리량 우선 모드에서 332MHz에서 194 추론 / 초 및 1.196GHz에서 623 추론 / 초였습니다. 1,190 개의 추론 / J는 0.6V에서 측정되었으며, 이는 Inception-V3의 13.6Top / s / W에 해당합니다.
면적당 삼성 칩은 2.69Top / s / mm 2 및 114 inference / s / mm 2를 얻습니다 .
ap전체합쳐서 25tops인가로 알고잇습니다
npu만으로 25tops라는건 지나친 희망사항이었죠..
애플 npu가 11tops니..