
미니 결국 AI 모델도 폰노이만 구조를 따라가네요
- 십사프로씁니다
- 조회 수 1910
- 2025.01.20. 23:31
제목은 조금 설레발입니다
유튜브에서 재밌는 영상을 봐서 여기에 요약해봅니다.
출처:
https://youtu.be/qoKggLbjkGU?si=CwacrCIrz9MTS2m0
-----------------------------------------------------------------------------------
구글에서 차세대 AI 모델인 Titans를 공개했는데요
이는 기존의 트랜스포머 구조 이후의 혁신적인 접근법을 제공합니다.
트랜스포머 구조는 아래와 같습니다.
첫번째 공간에 단어가 적히면, 다음 공간에 올 가장 높은 확률의 단어를 깔고
첫번재, 두번째 공간의 단어를 이용해서 세번째 공간에 올 가장 높은 확률의 단어를 깔고
첫번째, 두번째, 세번째 공간의 단어를 이용해서 네번째 공간에 올 가장 높은 확률의 단어를 깔고...
(반복)
이때 한번에 처리할 수 있는 토큰(단어와 비슷)의 수를 Context Window라고 부릅니다. 한국어로는 맥락 윈도우? 라고 할 수 있겠네요.
예를들어 Context Window가 100개의 토큰을 처리할 수 있으면 200개의 토큰길이의 단어를 넣으면
AI 모델은 200개 토큰 길이의 말의 전체 맥락을 이해할 수 없는 '구조적인 문제'가 있습니다.
즉 긴 문장의 맥락 파악도 어렵고, 반대로 '장기 기억(과거 데이터 상실 = Context Window가 부족하기 때문)' 하는데에도 굉장히 취약한 구조를 갖고있습니다.
이 한계를 돌파하고자 Context window를 구글에서는 엄청나게 늘리고 했지만, 결국 근본적인 해결은 못하고 있는 상황이고, 너무나 많은 GPU가 동시에 작동해야하고 하드웨어끼리의 Latency 등등의 발생으로 현실적으로 활용하기 어려워지고 있죠.
이게 트랜스포머 모델의 태생적 한계라고 합니다.
하지만 구글의 차세대 AI 모델 Titans은 이 구조를 해결하기 위해서 새롭게 고안되었다고 합니다.
아래의 사진은 폰노이만 아키텍쳐인데요
폰노이만 아키텍쳐는 CPU 내부에서(Register, SRAM 등) 자주 쓰는 것들을 올려다놓고 바로바로 활용하고
그 이상의 용량 중 빠르게 활용해야 하는 것들은 RAM에 올려놓고 활용하고
그것보다 중요하지 않은 내용들은 SSD나 HDD에 저장해놓고 있습니다.
기존의 트랜스포머 모델은 CPU 내부에서만 모든것을 처리하려하는 것과 같습니다.
이 구조에서 착안하여 Titans은 장기 기억을 할 수 있는, '메모리 공간' 개념을 도입했습니다.
Neural Memory 라고 부릅니다
장기 기억을 할 수 있는 어떤 독립적인 공간, Context를 넘어가더라도 기억이 필요한 내용.
사람이 공부해서 기억을 하는것과 비슷하다고 할 수 있습니다.
문제는 Neural Memory가 너무 비대해지면, 결국 메모리를 제외한 일반 트랜스포머 모델 부분의 성능이 저하될 가능성이 있습니다. 아무거나 저장하면 오히려 안좋을 수 있다는 거죠.
그럼 핵심은 여기에 있습니다. "어떤 것을 Neural Memory에 저장해야하는가?"
여기서 구글은 Surprise Metric을 Neural Memory에 저장한다고 합니다.
"예상한 값"과 "실제 값"의 차이가 큰 것들의 경우 Surprise Metric으로써 Neural Memory에 저장한다고 합니다.
사람도 비슷하죠. 예상한 결과와 실제 결과가 다를때 놀라움을 느끼는데, 이러한 기억은 강하게 저장됩니다.
근데 신기하게 여기서 망각 매커니즘도 넣었다고 하네요. 중요한 데이터를 저장하며, 불필요한 정보는 지우면서 어댑티브하게 작동한다고 합니다.
구글에서 밝힌 결과를 보면 입력단 Length가 길어져도 Titans는 정확도를 여전히 높게 가져가는걸 볼 수 있습니다.
(웃긴건10^3에서 GPT-4가 Titans(MAC)보다 좋네요 ㅋㅋ)
아무튼 그렇습니다.
구글에서 트랜스포머 모델의 태생적 한계를 돌파하고자 내놓은 Titans 모델을 보면
결국 폰노이만 아키텍쳐를 따라 Memory 개념을 도입하는군요.
폰 노이만 그는....!
끝



아직 AI 분야는 아키텍쳐 구축에 인력(상상력이죠 사실상)이 들어갈 여지가 많이 보여서 즐겁습니다.
난해하지만, 이해하려고 시도해보면 재미있네요.
---
토큰 처리(정보 흐름)에 있어 논리적 계층을 도입하고자 하는게 Titan 모델의 논점인 듯 하네요. 그리고, 이 부분에 있어 폰노이만 계통 컴퓨터와 유사점이 있다는 논지로 들립니다.
이 점에선, 그럼에도 아직 갈 길이 멀어보이네요. 최적화할 여지가 많겠죠, 아무래도.
그러나, 미래만 보자면 context 증가에 비해 성능 낙폭이 적은 게 핵심적인 포인트일테고요.







기존 뉴럴 구조는 memory hierarchy를 따르지 않았나요? DRAM용량이 중요하다길래 스토리지까지는 아니어도 메인메모리는 적극적으로 사용할줄 알았는데..