LLM을 칩 위에 ‘인쇄’하는 Taalas의 방식

1 month ago 13

Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업임
GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 그리고 10배 빠른 추론 성능을 주장함
모델의 가중치를 실리콘 트랜지스터로 직접 새겨 넣는 구조로, GPU의 메모리 병목을 제거함
외부 DRAM/HBM 없이, 칩 내부의 SRAM만으로 KV 캐시와 LoRA 어댑터를 처리함
모델별 칩 제작은 상단 두 레이어만 맞춤화하는 방식으로, 2개월 만에 Llama 3.1용 칩을 완성함

Taalas 칩의 개요

Taalas는 설립 2.5년 된 회사로, 이번 칩이 첫 번째 제품임
칩은 고정 기능형 ASIC으로, 한 모델만 저장 가능하며 재작성 불가
- CD-ROM이나 게임 카트리지처럼 단일 모델 전용 구조를 가짐

GPU 기반 LLM 추론의 비효율

LLM은 여러 계층(layer) 으로 구성되며, 예시로 Llama 3.1 8B는 32개 계층을 가짐
GPU는 각 계층의 가중치 행렬을 VRAM에서 불러와 연산 후 다시 저장하는 과정을 반복함
- 각 토큰을 생성할 때마다 이 과정을 32회 반복해야 함
이러한 메모리 왕복 과정이 지연과 에너지 소모를 유발하며, 이를 메모리 대역폭 병목 또는 Von Neumann 병목이라 부름

Taalas의 ‘하드와이어드’ 접근

Taalas는 Llama 3.1의 32개 계층을 순차적으로 실리콘 위에 새겨 넣음
- 모델의 가중치가 물리적 트랜지스터로 구현됨
입력 벡터가 들어오면, 각 계층의 트랜지스터를 통과하며 전기 신호 형태로 연속 처리됨
- 중간 결과를 VRAM에 저장하지 않고, 배선(pipeline registers) 을 따라 다음 계층으로 바로 전달됨
회사는 4비트 데이터 저장과 곱셈 연산을 단일 트랜지스터로 수행하는 ‘magic multiplier’ 구조를 개발했다고 밝힘

메모리 구조

외부 DRAM/HBM은 사용하지 않음, 대신 칩 내부에 소량의 SRAM을 탑재
- DRAM과 논리 게이트를 혼합 제조하기 어렵기 때문
이 온칩 SRAM은 KV 캐시(대화 중 임시 메모리)와 LoRA 어댑터 저장에 사용됨

모델별 칩 제작 방식

모델마다 칩을 새로 제작하는 것은 일반적으로 비용이 높음
Taalas는 기본 칩 구조를 공통으로 설계하고, 특정 모델에 맞게 상단 두 레이어(마스크) 만 수정
- 완전 신규 칩 제작보다 훨씬 빠른 방식
Llama 3.1 8B용 칩 개발에는 약 2개월이 소요됨
- AI 업계 기준으로는 느리지만, 커스텀 칩 제작 속도로는 매우 빠른 수준임

향후 기대

GPU 없이 로컬 모델을 실행하는 사용자 입장에서, 이런 하드웨어의 대량 생산이 기대됨

Read Entire Article