-
Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업임
- GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 그리고 10배 빠른 추론 성능을 주장함
- 모델의 가중치를 실리콘 트랜지스터로 직접 새겨 넣는 구조로, GPU의 메모리 병목을 제거함
- 외부 DRAM/HBM 없이, 칩 내부의 SRAM만으로 KV 캐시와 LoRA 어댑터를 처리함
- 모델별 칩 제작은 상단 두 레이어만 맞춤화하는 방식으로, 2개월 만에 Llama 3.1용 칩을 완성함
Taalas 칩의 개요
- Taalas는 설립 2.5년 된 회사로, 이번 칩이 첫 번째 제품임
- 칩은 고정 기능형 ASIC으로, 한 모델만 저장 가능하며 재작성 불가
- CD-ROM이나 게임 카트리지처럼 단일 모델 전용 구조를 가짐
GPU 기반 LLM 추론의 비효율
- LLM은 여러 계층(layer) 으로 구성되며, 예시로 Llama 3.1 8B는 32개 계층을 가짐
- GPU는 각 계층의 가중치 행렬을 VRAM에서 불러와 연산 후 다시 저장하는 과정을 반복함
- 각 토큰을 생성할 때마다 이 과정을 32회 반복해야 함
- 이러한 메모리 왕복 과정이 지연과 에너지 소모를 유발하며, 이를 메모리 대역폭 병목 또는 Von Neumann 병목이라 부름
Taalas의 ‘하드와이어드’ 접근
- Taalas는 Llama 3.1의 32개 계층을 순차적으로 실리콘 위에 새겨 넣음
- 입력 벡터가 들어오면, 각 계층의 트랜지스터를 통과하며 전기 신호 형태로 연속 처리됨
- 중간 결과를 VRAM에 저장하지 않고, 배선(pipeline registers) 을 따라 다음 계층으로 바로 전달됨
- 회사는 4비트 데이터 저장과 곱셈 연산을 단일 트랜지스터로 수행하는 ‘magic multiplier’ 구조를 개발했다고 밝힘
메모리 구조
- 외부 DRAM/HBM은 사용하지 않음, 대신 칩 내부에 소량의 SRAM을 탑재
- DRAM과 논리 게이트를 혼합 제조하기 어렵기 때문
- 이 온칩 SRAM은 KV 캐시(대화 중 임시 메모리)와 LoRA 어댑터 저장에 사용됨
모델별 칩 제작 방식
- 모델마다 칩을 새로 제작하는 것은 일반적으로 비용이 높음
- Taalas는 기본 칩 구조를 공통으로 설계하고, 특정 모델에 맞게 상단 두 레이어(마스크) 만 수정
- Llama 3.1 8B용 칩 개발에는 약 2개월이 소요됨
- AI 업계 기준으로는 느리지만, 커스텀 칩 제작 속도로는 매우 빠른 수준임
향후 기대
- GPU 없이 로컬 모델을 실행하는 사용자 입장에서, 이런 하드웨어의 대량 생산이 기대됨