로그인 해주세요.

미니기기 / 음향 게시판 *스마트폰과 PC, 카메라, 스피커 등 IT 미니기기와 음향기기에 관해 교류하는 게시판입니다.

Aimyon

미니 엑시 2100 NPU 성능 13.6TOPs

  • Aimyon
  • 조회 수 704
  • 2021.02.20. 15:35

구글 번역

 

 

삼성 모바일 AI 프로세서는 5.46mm 2로 더 작고 5nm 프로세스를 사용하여 총 623 개의 추론을 실행할 수있는 3 개의 코어를 구현합니다.

 

각 코어에는 벡터 처리 장치 및 1MB의 스크래치 패드와 함께 두 개의 하위 코어 ( '컨볼루션 엔진')가 있습니다. 각 하위 코어에는 가중치 (기능 맵 – 부분 합계 페처 및 1,024 개의 MAC 어레이 – 칩에> 6,000 개의 MAC)가 있습니다. 사이클 당 16 차원 벡터의 내적 64 개를 실행할 수 있습니다. 스크래치 패드는 레이어에 대한 모든 가중치, 입력 특성 맵, 출력 특성 맵 및 부분 합계를 보유하거나, 레이어가 한 번에 맞을 정도로 클 경우 해당 레이어의 타일을 보유합니다. 벡터 처리 장치는 정규화 및 소프트맥스와 같은 복잡한 비선형 함수를 실행합니다.

 

IBM의 링 버스와 달리 이 경우 코어는 DMA (직접 메모리 액세스)를 사용하는 보다 일반적인 버스로 연결됩니다.

 

낭비되는 프로세싱과 전력을 절약하기 위해 feature map zero-skipping 기능이 구현되었습니다. ISSCC 프레젠테이션에 따르면 "Inception-V3의 컨볼루션 레이어에 대한 MAC 사용률은 feature map zero-skipping으로 평균 36 % 향상 될 수 있습니다." "weight zero-skipping과 달리 feature map zero-skipping은 weight pruning와 같은 추가 훈련 단계없이 효과적인 성능과 에너지 효율성을 향상시킵니다."

 

이 칩은 550mV ~ 900mV, 332Mz ~ 1.2GHz 클럭킹에서 실행됩니다. 전력 및 성능은 가중치 정리없이 8 비트 Inception-V3 모델의 컨볼루션, 풀링 및 완전 연결 계층을 실행하는 동안 측정되었습니다. 전체 추론 처리량은 다중 스레드 CPU 작업에 해당하는 처리량 우선 모드에서 332MHz에서 194 추론 / 초 및 1.196GHz에서 623 추론 / 초였습니다. 1,190 개의 추론 / J는 0.6V에서 측정되었으며, 이는 Inception-V3의 13.6Top / s / W에 해당합니다.

 

면적당 삼성 칩은 2.69Top / s / mm 2 및 114 inference / s / mm 2를 얻습니다 .

댓글
3
노틀담의꼽추
1등 노틀담의꼽추
2021.02.20. 16:21

ap전체합쳐서 25tops인가로 알고잇습니다

npu만으로 25tops라는건 지나친 희망사항이었죠..

애플 npu가 11tops니..

[노틀담의꼽추]님의 댓글을 신고합니다. 취소 신고
Aimyon
글쓴이
Aimyon 노틀담의꼽추 님께
2021.02.20. 16:24

26TOPs요. 퀄컴도 그렇고 종합 성능으로 하네요 ㅋㅋ 마케팅 하기도 좋고

[Aimyon]님의 댓글을 신고합니다. 취소 신고
포인트봇
포인트봇 Aimyon 님께
2021.02.20. 16:23
Aimyon 님, 1포인트 채굴 성공!
[포인트봇]님의 댓글을 신고합니다. 취소 신고
취소

등록된 글이 없습니다.


추천 IT 소식 [1/]

스킨 기본정보

colorize02 board
2017-03-02
colorize02 게시판

확장 변수

1. 게시판 기본 설정

게시판 타이틀 하단에 출력 됩니다.

일반 게시판, 리스트 게시판, 갤러리 게시판에만 해당

2. 글 목록

기본 게시판, 일반 게시판, 썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

3. 갤러리 설정

4. 글 읽기 화면

기본 10명 (11명 일 경우, XXXXX 외 1명으로 표시)

5. 댓글 설정

일정 수 이상의 추천을 받은 댓글에 표시를 합니다.

6. 글 쓰기 화면 설정

글 쓰기 폼에 미리 입력해 놓을 문구를 설정합니다.