에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU

3 weeks ago 14

학습과 추론을 분리한 TPU 8t와 TPU 8i 공개, 최첨단 모델 학습·에이전트 개발·대규모 추론 워크로드를 겨냥한 맞춤형 인프라 제공
TPU 8t는 높은 연산 처리량과 대규모 공유 메모리, 확장성을 바탕으로 프런티어 모델 개발 주기를 수개월에서 수주로 줄이도록 설계됐으며, pod당 연산 성능은 이전 세대 대비 거의 3배로 확대
TPU 8i는 메모리 대역폭과 지연 시간 최적화에 초점을 맞춰 에이전트형 추론에 맞게 재설계됐고, 온칩 SRAM 확대와 Axion CPU 호스트, MoE 대응 네트워크 개선으로 성능 대비 비용 80% 개선 달성
두 칩은 Google DeepMind와의 공동 설계를 바탕으로 최신 학습·추론 모델 요구를 반영했으며, JAX·PyTorch·vLLM 등 네이티브 지원과 bare metal access 제공
전력 제약이 커진 데이터센터 환경에 맞춰 전력 효율을 시스템 단위로 끌어올렸고, 두 칩 모두 올해 후반 일반 제공 예정이며 Google AI Hypercomputer의 일부로 사용 가능

8세대 TPU 공개

TPU 8t와 TPU 8i를 각각 학습과 추론에 특화한 두 가지 아키텍처로 공개, Google의 맞춤형 슈퍼컴퓨터 구동 대상
- 두 칩 모두 최첨단 모델 학습, 에이전트 개발, 대규모 추론 워크로드 지원
- TPUs가 수년간 Gemini를 포함한 주요 파운데이션 모델 구동에 사용돼 왔다는 언급 포함
AI 에이전트 시대에는 모델이 문제를 추론하고, 다단계 워크플로를 실행하며, 자체 행동으로부터 학습하는 연속 루프 수행
- 이에 맞는 새로운 인프라 요구 발생
- TPU 8t와 TPU 8i를 Google DeepMind와의 협업으로 설계, 가장 까다로운 AI 워크로드와 대규모 모델 아키텍처 변화 대응 목적
TPU는 맞춤형 수치 연산, 액체 냉각, 맞춤형 인터커넥트 등을 포함한 ML 슈퍼컴퓨팅 구성요소의 기준점
- 8세대 TPU를 10년 이상 개발의 집대성으로 규정
- 실리콘, 하드웨어, 네트워킹, 소프트웨어, 모델 아키텍처, 애플리케이션 요구사항을 함께 설계해 전력 효율과 절대 성능을 크게 높인다는 설계 원칙 유지
Citadel Securities가 TPU를 선택해 최첨단 AI 워크로드를 구동 중이라는 사례 언급

지금 시점에 맞춘 두 개의 칩

하드웨어 개발 주기가 소프트웨어보다 훨씬 길기 때문에, TPU 세대 설계 시 출시 시점의 기술과 수요를 미리 고려
- 수년 전부터 최첨단 AI 모델의 프로덕션 배치와 확산에 따라 고객의 추론 수요 증가 예상
AI 에이전트 확산에 따라 학습과 서비스 요구에 각각 맞춘 칩 분리 필요
- TPU 8t는 더 큰 연산 처리량과 더 높은 scale-up 대역폭을 바탕으로 대규모 고연산 학습 워크로드 대상
- TPU 8i는 더 큰 메모리 대역폭을 바탕으로 지연 시간 민감도가 높은 추론 워크로드 대상
에이전트 간 상호작용이 대규모로 늘어나면 작은 비효율도 확대된다는 점이 TPU 8i 설계 배경
두 칩 모두 다양한 워크로드 실행 가능하지만, 전문화를 통해 의미 있는 효율과 성능 향상 확보

TPU 8t: 학습용 고성능 시스템

TPU 8t를 프런티어 모델 개발 주기를 수개월에서 수주로 줄이는 목적의 시스템으로 설계
- 높은 연산 처리량, 공유 메모리, 칩 간 대역폭, 전력 효율, 실제 생산적 연산 시간의 균형 추구
- 이전 세대 대비 pod당 연산 성능을 거의 3배로 높였다고 명시
대규모 확장
- 단일 TPU 8t superpod를 9,600개 칩과 2페타바이트의 공유 고대역폭 메모리까지 확장 가능
- 이전 세대 대비 칩 간 대역폭 2배
- 121 ExaFlops 연산 성능 제공
- 가장 복잡한 모델도 단일 대규모 메모리 풀 활용 가능
최대 활용도
- 저장장치 접근 속도를 10배 높이고, TPUDirect를 결합해 TPU로 직접 데이터 로드 지원
- 엔드투엔드 시스템 활용도 극대화 목적
근사 선형 확장
- Virgo Network, JAX, Pathways 소프트웨어 조합으로 단일 논리 클러스터에서 최대 100만 개 칩까지 근사 선형 확장 제공
- 원시 성능 외에도 TPU 8t는 97% 이상의 goodput 목표
- goodput을 유용하고 생산적인 실제 연산 시간의 지표로 정의
- RAS 기능군으로 신뢰성, 가용성, 서비스 용이성 강화
- 수만 개 칩 전반의 실시간 텔레메트리 제공
- 작업 중단 없이 결함 있는 ICI 링크를 자동 탐지하고 우회
- Optical Circuit Switching (OCS) 로 사람 개입 없이 장애 지점을 기준으로 하드웨어 재구성
- 하드웨어 장애, 네트워크 정체, 체크포인트 재시작이 모두 학습 중단 시간으로 이어지며, 프런티어 학습 규모에서는 1%포인트 차이도 며칠의 실제 학습 시간으로 환산된다고 명시

TPU 8i: 추론과 추론형 에이전트용 엔진

TPU 8i를 질문 응답, 작업 위임, 결과 산출이 필요한 에이전트 시대의 추론용 시스템으로 설계
- 다수의 특화 에이전트가 복잡한 흐름 속에서 함께 작동하는 협업적이고 반복적인 작업 처리 대상
스택을 다시 설계해 “waiting room” 효과 제거 추진
메모리 병목 해소
- 프로세서 유휴화를 막기 위해 288GB의 고대역폭 메모리와 384MB의 온칩 SRAM 결합
- 온칩 SRAM은 이전 세대 대비 3배
- 모델의 활성 작업 집합 전체를 온칩에 유지 목표
Axion 기반 효율
- 서버당 물리 CPU 호스트 수를 2배로 늘리고, 맞춤형 Axion Arm 기반 CPU로 전환
- NUMA를 격리 용도로 활용해 전체 시스템 성능 최적화
MoE 모델 확장
- 현대적 Mixture of Expert (MoE) 모델을 위해 ICI 대역폭을 19.2 Tb/s로 2배 확대
- 새로운 Boardfly 아키텍처로 최대 네트워크 지름을 50% 이상 축소
- 시스템 전체를 하나의 일관된 저지연 단위처럼 동작하도록 설계
지연 최소화
- 온칩 Collectives Acceleration Engine (CAE) 가 전역 연산 오프로딩
- 온칩 지연 시간을 최대 5배까지 줄여 지연 최소화
- 위 혁신으로 이전 세대 대비 성능 대비 비용 80% 개선
- 같은 비용으로 거의 2배의 고객 볼륨 서비스 가능
- TPU 8i pod 토폴로지는 4개 완전 연결 칩 블록에서 시작해 8개 보드 완전 연결 그룹으로 확장되며, 이런 그룹 36개가 완전 연결되는 구조라는 설명 포함

Gemini와 공동 설계, 모두에게 개방

8세대 TPU를 AI의 큰 장애물을 해결하기 위한 공동 설계 철학의 최신 결과물로 규정
설계 반영 항목
- Boardfly 토폴로지를 최신 고성능 추론 모델의 통신 요구에 맞춰 설계
- TPU 8i의 SRAM 용량을 프로덕션 규모 추론 모델의 KV 캐시 크기에 맞춰 산정
- Virgo Network 패브릭의 대역폭 목표를 조 단위 파라미터 학습의 병렬화 요구에서 도출
- 두 칩 모두 처음으로 Google 자체 Axion ARM 기반 CPU 호스트에서 동작
- 칩만이 아니라 전체 시스템 단위로 성능과 효율 최적화 가능
- 두 플랫폼 모두 JAX, MaxText, PyTorch, SGLang, vLLM 네이티브 지원
- bare metal access 제공
- 가상화 오버헤드 없이 고객이 하드웨어에 직접 접근 가능
- 오픈소스 기여 항목으로 MaxText 참조 구현과 강화학습 지원용 Tunix 언급
- 역량과 프로덕션 배포 사이의 핵심 경로 지원 목적

대규모 전력 효율 중심 설계

오늘날 데이터센터에서는 칩 공급뿐 아니라 전력이 핵심 제약
- 실시간 수요에 따라 전력 소모를 동적으로 조정하는 통합 전력 관리 적용
TPU 8t와 TPU 8i는 이전 세대 Ironwood 대비 와트당 성능을 최대 2배 개선
Google의 효율은 칩 단위 지표에 그치지 않고 실리콘부터 데이터센터까지 이어지는 시스템 차원의 약속
네트워크 연결성과 연산을 같은 칩에 통합해 TPU pod 내부 데이터 이동 전력 비용을 크게 절감
데이터센터도 TPU와 공동 설계 대상
- 하드웨어와 소프트웨어 전반의 혁신으로 5년 전 대비 전력 단위당 6배 더 많은 연산 성능 제공
두 칩 모두 4세대 액체 냉각 기술 지원
- 공랭으로는 유지할 수 없는 성능 밀도 지속 목적
Axion 호스트부터 가속기까지 전체 스택을 보유해, 호스트와 칩이 독립적으로 설계될 때 달성할 수 없는 시스템 수준 에너지 효율 최적화 가능

에이전트 시대를 위한 인프라

모든 주요 컴퓨팅 전환기마다 인프라 혁신이 필요했으며, 에이전트 시대도 예외 아님
인프라는 자율 에이전트의 연속적 추론, 계획, 실행, 학습 루프 요구에 맞춰 진화 필요
TPU 8t와 TPU 8i를 이에 대한 해답으로 배치
- 가장 강력한 AI 모델 구축
- 정교하게 조율된 에이전트 군집 운영
- 가장 복잡한 추론 작업 관리 대상
두 칩 모두 올해 후반 일반 제공 예정
Google AI Hypercomputer의 일부로 사용 가능
- 목적별 하드웨어인 연산, 저장장치, 네트워킹
- 개방형 소프트웨어인 프레임워크와 추론 엔진
- 오케스트레이션, 클러스터 관리, 전달 모델을 포함한 유연한 소비 방식
- 위 요소를 하나의 통합 스택으로 결합
관심 고객은 추가 정보 요청 가능