-
AI의 확산을 가로막는 핵심 장애물은 높은 지연 시간과 막대한 비용으로, 인간 수준의 사고 속도와 실시간 반응을 구현하기 어렵게 함
- Taalas는 AI 모델을 맞춤형 실리콘 칩으로 변환하는 플랫폼을 개발해, 모델을 하드웨어로 구현하는 데 단 두 달만 소요되는 구조를 제시
- 이 기술은 저전력·저비용·고속 추론을 가능하게 하며, 메모리와 연산을 통합한 새로운 칩 아키텍처로 기존 GPU 기반 시스템의 복잡성을 제거
- 첫 제품인 Llama 3.1 8B 하드와이어드 모델은 초당 17K 토큰을 처리하며, 기존 대비 10배 빠르고 20배 저렴하며 전력 소모는 10분의 1 수준
- Taalas는 이러한 접근을 통해 AI의 실시간화와 대중화를 앞당기고, 개발자들이 초저지연·초저비용 환경에서 새로운 응용을 실험할 수 있도록 함
AI의 현재 한계와 필요성
- AI는 이미 특정 영역에서 인간을 능가하지만, 지연 시간(latency) 과 비용(cost) 이 대중적 활용의 가장 큰 제약으로 지적됨
- 언어 모델과의 상호작용은 인간 사고 속도보다 느리고, 코딩 보조 도구는 수 분간 응답을 기다리게 함
- 자동화된 에이전트형 AI는 밀리초 단위의 반응이 필요하지만, 현재 시스템은 이를 충족하지 못함
- 최신 모델의 배포에는 수백 kW 전력과 복잡한 냉각·패키징·메모리 구조가 필요한 대형 슈퍼컴퓨터급 인프라가 요구됨
- 이러한 구조는 도시 규모의 데이터센터와 위성 네트워크로 확장되어 운영비 폭증을 초래함
- Taalas는 과거 ENIAC에서 트랜지스터로의 전환처럼, AI도 효율적이고 저비용 구조로 진화해야 함을 강조
Taalas의 기술 철학
- 설립 2년 반 만에, Taalas는 AI 모델을 맞춤형 실리콘으로 변환하는 플랫폼을 완성
- 새로운 모델을 수신한 후 2개월 내 하드웨어화 가능
- 결과물인 Hardcore Models는 기존 소프트웨어 기반 대비 속도·비용·전력 효율에서 10배 수준의 개선
- 세 가지 핵심 원칙 제시
-
완전한 특화(Total specialization)
- 각 AI 모델별로 최적화된 실리콘을 제작해 극단적 효율 달성
-
저장과 연산의 통합(Merging storage and computation)
- DRAM과 연산 칩의 분리로 인한 병목을 제거하고, 단일 칩 내 DRAM 밀도 수준의 통합 구조 구현
-
급진적 단순화(Radical simplification)
- HBM, 3D 스태킹, 액체 냉각 등 복잡한 기술을 제거해 시스템 비용을 한 자릿수 수준으로 절감
첫 제품: Llama 3.1 8B 하드와이어드 모델
-
세계에서 가장 빠르고 저비용·저전력의 추론 플랫폼으로 소개
- Llama 3.1 8B 모델을 실리콘에 직접 구현해 초당 17K 토큰 처리, 기존 대비 10배 속도, 20배 저렴한 제작비, 10배 낮은 전력 소모
-
오픈소스 모델을 기반으로 실용성과 개발 용이성을 확보
- 컨텍스트 윈도 크기 조정 및 LoRA 기반 미세조정(fine-tuning) 지원
- 1세대 칩은 3비트·6비트 혼합 양자화를 사용해 GPU 대비 품질 저하가 일부 존재
- 2세대 실리콘(HC2)은 표준 4비트 부동소수점 형식을 채택해 품질과 효율을 개선
향후 모델 로드맵
-
두 번째 모델은 중간 규모의 추론형 LLM으로, 봄에 연구소에서 완성 후 추론 서비스에 통합 예정
-
세 번째 모델은 HC2 플랫폼 기반의 프런티어급 LLM으로, 더 높은 밀도와 속도를 제공하며 겨울 배포 예정
개발자 접근성과 팀 구조
- 현재 베타 서비스로 공개된 Llama 모델은 초저지연·초저비용 환경을 체험할 수 있는 형태로 제공
- Taalas는 24명 팀과 3천만 달러의 비용으로 첫 제품을 완성했으며, 이는 정밀한 목표 설정과 집중된 실행력의 결과로 제시됨
- 팀은 20년 이상 협업해온 소규모 전문가 그룹으로 구성되어 있으며, 품질·정밀성·장인정신을 중시
결론: AI의 실시간화와 대중화
- Taalas의 기술은 성능·전력 효율·비용에서 단계적 도약을 제공
- 기존 GPU 중심 구조와 다른 새로운 AI 시스템 아키텍처 철학을 제시
-
지연과 비용의 장벽을 제거함으로써, AI를 실시간으로 활용할 수 있는 환경을 개발자에게 제공
- 향후 더 강력한 모델로 확장하며, AI의 보편적 접근성을 실현하는 방향으로 발전 예정