AI의 보편화를 향한 길 (초당 17K 토큰)

1 month ago 14

AI의 확산을 가로막는 핵심 장애물은 높은 지연 시간과 막대한 비용으로, 인간 수준의 사고 속도와 실시간 반응을 구현하기 어렵게 함
Taalas는 AI 모델을 맞춤형 실리콘 칩으로 변환하는 플랫폼을 개발해, 모델을 하드웨어로 구현하는 데 단 두 달만 소요되는 구조를 제시
이 기술은 저전력·저비용·고속 추론을 가능하게 하며, 메모리와 연산을 통합한 새로운 칩 아키텍처로 기존 GPU 기반 시스템의 복잡성을 제거
첫 제품인 Llama 3.1 8B 하드와이어드 모델은 초당 17K 토큰을 처리하며, 기존 대비 10배 빠르고 20배 저렴하며 전력 소모는 10분의 1 수준
Taalas는 이러한 접근을 통해 AI의 실시간화와 대중화를 앞당기고, 개발자들이 초저지연·초저비용 환경에서 새로운 응용을 실험할 수 있도록 함

AI의 현재 한계와 필요성

AI는 이미 특정 영역에서 인간을 능가하지만, 지연 시간(latency) 과 비용(cost) 이 대중적 활용의 가장 큰 제약으로 지적됨
- 언어 모델과의 상호작용은 인간 사고 속도보다 느리고, 코딩 보조 도구는 수 분간 응답을 기다리게 함
- 자동화된 에이전트형 AI는 밀리초 단위의 반응이 필요하지만, 현재 시스템은 이를 충족하지 못함
최신 모델의 배포에는 수백 kW 전력과 복잡한 냉각·패키징·메모리 구조가 필요한 대형 슈퍼컴퓨터급 인프라가 요구됨
- 이러한 구조는 도시 규모의 데이터센터와 위성 네트워크로 확장되어 운영비 폭증을 초래함
Taalas는 과거 ENIAC에서 트랜지스터로의 전환처럼, AI도 효율적이고 저비용 구조로 진화해야 함을 강조

설립 2년 반 만에, Taalas는 AI 모델을 맞춤형 실리콘으로 변환하는 플랫폼을 완성
- 새로운 모델을 수신한 후 2개월 내 하드웨어화 가능
- 결과물인 Hardcore Models는 기존 소프트웨어 기반 대비 속도·비용·전력 효율에서 10배 수준의 개선
세 가지 핵심 원칙 제시
1. 완전한 특화(Total specialization)
  - 각 AI 모델별로 최적화된 실리콘을 제작해 극단적 효율 달성
2. 저장과 연산의 통합(Merging storage and computation)
  - DRAM과 연산 칩의 분리로 인한 병목을 제거하고, 단일 칩 내 DRAM 밀도 수준의 통합 구조 구현
3. 급진적 단순화(Radical simplification)
  - HBM, 3D 스태킹, 액체 냉각 등 복잡한 기술을 제거해 시스템 비용을 한 자릿수 수준으로 절감

세계에서 가장 빠르고 저비용·저전력의 추론 플랫폼으로 소개
- Llama 3.1 8B 모델을 실리콘에 직접 구현해 초당 17K 토큰 처리, 기존 대비 10배 속도, 20배 저렴한 제작비, 10배 낮은 전력 소모
오픈소스 모델을 기반으로 실용성과 개발 용이성을 확보
- 컨텍스트 윈도 크기 조정 및 LoRA 기반 미세조정(fine-tuning) 지원
1세대 칩은 3비트·6비트 혼합 양자화를 사용해 GPU 대비 품질 저하가 일부 존재
- 2세대 실리콘(HC2)은 표준 4비트 부동소수점 형식을 채택해 품질과 효율을 개선

현재 베타 서비스로 공개된 Llama 모델은 초저지연·초저비용 환경을 체험할 수 있는 형태로 제공
- chatjimmy.ai 데모와 API 서비스로 이용 가능
Taalas는 24명 팀과 3천만 달러의 비용으로 첫 제품을 완성했으며, 이는 정밀한 목표 설정과 집중된 실행력의 결과로 제시됨
팀은 20년 이상 협업해온 소규모 전문가 그룹으로 구성되어 있으며, 품질·정밀성·장인정신을 중시