에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU
3 weeks ago
14
- 학습과 추론을 분리한 TPU 8t와 TPU 8i 공개, 최첨단 모델 학습·에이전트 개발·대규모 추론 워크로드를 겨냥한 맞춤형 인프라 제공
- TPU 8t는 높은 연산 처리량과 대규모 공유 메모리, 확장성을 바탕으로 프런티어 모델 개발 주기를 수개월에서 수주로 줄이도록 설계됐으며, pod당 연산 성능은 이전 세대 대비 거의 3배로 확대
- TPU 8i는 메모리 대역폭과 지연 시간 최적화에 초점을 맞춰 에이전트형 추론에 맞게 재설계됐고, 온칩 SRAM 확대와 Axion CPU 호스트, MoE 대응 네트워크 개선으로 성능 대비 비용 80% 개선 달성
- 두 칩은 Google DeepMind와의 공동 설계를 바탕으로 최신 학습·추론 모델 요구를 반영했으며, JAX·PyTorch·vLLM 등 네이티브 지원과 bare metal access 제공
- 전력 제약이 커진 데이터센터 환경에 맞춰 전력 효율을 시스템 단위로 끌어올렸고, 두 칩 모두 올해 후반 일반 제공 예정이며 Google AI Hypercomputer의 일부로 사용 가능
8세대 TPU 공개
- TPU 8t와 TPU 8i를 각각 학습과 추론에 특화한 두 가지 아키텍처로 공개, Google의 맞춤형 슈퍼컴퓨터 구동 대상
- 두 칩 모두 최첨단 모델 학습, 에이전트 개발, 대규모 추론 워크로드 지원
- TPUs가 수년간 Gemini를 포함한 주요 파운데이션 모델 구동에 사용돼 왔다는 언급 포함
- AI 에이전트 시대에는 모델이 문제를 추론하고, 다단계 워크플로를 실행하며, 자체 행동으로부터 학습하는 연속 루프 수행
- 이에 맞는 새로운 인프라 요구 발생
- TPU 8t와 TPU 8i를 Google DeepMind와의 협업으로 설계, 가장 까다로운 AI 워크로드와 대규모 모델 아키텍처 변화 대응 목적
- TPU는 맞춤형 수치 연산, 액체 냉각, 맞춤형 인터커넥트 등을 포함한 ML 슈퍼컴퓨팅 구성요소의 기준점
- 8세대 TPU를 10년 이상 개발의 집대성으로 규정
- 실리콘, 하드웨어, 네트워킹, 소프트웨어, 모델 아키텍처, 애플리케이션 요구사항을 함께 설계해 전력 효율과 절대 성능을 크게 높인다는 설계 원칙 유지
- Citadel Securities가 TPU를 선택해 최첨단 AI 워크로드를 구동 중이라는 사례 언급
지금 시점에 맞춘 두 개의 칩
- 하드웨어 개발 주기가 소프트웨어보다 훨씬 길기 때문에, TPU 세대 설계 시 출시 시점의 기술과 수요를 미리 고려
- 수년 전부터 최첨단 AI 모델의 프로덕션 배치와 확산에 따라 고객의 추론 수요 증가 예상
- AI 에이전트 확산에 따라 학습과 서비스 요구에 각각 맞춘 칩 분리 필요
- TPU 8t는 더 큰 연산 처리량과 더 높은 scale-up 대역폭을 바탕으로 대규모 고연산 학습 워크로드 대상
- TPU 8i는 더 큰 메모리 대역폭을 바탕으로 지연 시간 민감도가 높은 추론 워크로드 대상
- 에이전트 간 상호작용이 대규모로 늘어나면 작은 비효율도 확대된다는 점이 TPU 8i 설계 배경
- 두 칩 모두 다양한 워크로드 실행 가능하지만, 전문화를 통해 의미 있는 효율과 성능 향상 확보
TPU 8t: 학습용 고성능 시스템
- TPU 8t를 프런티어 모델 개발 주기를 수개월에서 수주로 줄이는 목적의 시스템으로 설계
- 높은 연산 처리량, 공유 메모리, 칩 간 대역폭, 전력 효율, 실제 생산적 연산 시간의 균형 추구
- 이전 세대 대비 pod당 연산 성능을 거의 3배로 높였다고 명시
-
대규모 확장
- 단일 TPU 8t superpod를 9,600개 칩과 2페타바이트의 공유 고대역폭 메모리까지 확장 가능
- 이전 세대 대비 칩 간 대역폭 2배
- 121 ExaFlops 연산 성능 제공
- 가장 복잡한 모델도 단일 대규모 메모리 풀 활용 가능
-
최대 활용도
- 저장장치 접근 속도를 10배 높이고, TPUDirect를 결합해 TPU로 직접 데이터 로드 지원
- 엔드투엔드 시스템 활용도 극대화 목적
-
근사 선형 확장
- Virgo Network, JAX, Pathways 소프트웨어 조합으로 단일 논리 클러스터에서 최대 100만 개 칩까지 근사 선형 확장 제공
- 원시 성능 외에도 TPU 8t는 97% 이상의 goodput 목표
- goodput을 유용하고 생산적인 실제 연산 시간의 지표로 정의
- RAS 기능군으로 신뢰성, 가용성, 서비스 용이성 강화
- 수만 개 칩 전반의 실시간 텔레메트리 제공
- 작업 중단 없이 결함 있는 ICI 링크를 자동 탐지하고 우회
- Optical Circuit Switching (OCS) 로 사람 개입 없이 장애 지점을 기준으로 하드웨어 재구성
- 하드웨어 장애, 네트워크 정체, 체크포인트 재시작이 모두 학습 중단 시간으로 이어지며, 프런티어 학습 규모에서는 1%포인트 차이도 며칠의 실제 학습 시간으로 환산된다고 명시
TPU 8i: 추론과 추론형 에이전트용 엔진
- TPU 8i를 질문 응답, 작업 위임, 결과 산출이 필요한 에이전트 시대의 추론용 시스템으로 설계
- 다수의 특화 에이전트가 복잡한 흐름 속에서 함께 작동하는 협업적이고 반복적인 작업 처리 대상
- 스택을 다시 설계해 “waiting room” 효과 제거 추진
-
메모리 병목 해소
- 프로세서 유휴화를 막기 위해 288GB의 고대역폭 메모리와 384MB의 온칩 SRAM 결합
- 온칩 SRAM은 이전 세대 대비 3배
- 모델의 활성 작업 집합 전체를 온칩에 유지 목표
-
Axion 기반 효율
- 서버당 물리 CPU 호스트 수를 2배로 늘리고, 맞춤형 Axion Arm 기반 CPU로 전환
- NUMA를 격리 용도로 활용해 전체 시스템 성능 최적화
-
MoE 모델 확장
- 현대적 Mixture of Expert (MoE) 모델을 위해 ICI 대역폭을 19.2 Tb/s로 2배 확대
- 새로운 Boardfly 아키텍처로 최대 네트워크 지름을 50% 이상 축소
- 시스템 전체를 하나의 일관된 저지연 단위처럼 동작하도록 설계
-
지연 최소화
- 온칩 Collectives Acceleration Engine (CAE) 가 전역 연산 오프로딩
- 온칩 지연 시간을 최대 5배까지 줄여 지연 최소화
- 위 혁신으로 이전 세대 대비 성능 대비 비용 80% 개선
- 같은 비용으로 거의 2배의 고객 볼륨 서비스 가능
- TPU 8i pod 토폴로지는 4개 완전 연결 칩 블록에서 시작해 8개 보드 완전 연결 그룹으로 확장되며, 이런 그룹 36개가 완전 연결되는 구조라는 설명 포함
Gemini와 공동 설계, 모두에게 개방
- 8세대 TPU를 AI의 큰 장애물을 해결하기 위한 공동 설계 철학의 최신 결과물로 규정
-
설계 반영 항목
- Boardfly 토폴로지를 최신 고성능 추론 모델의 통신 요구에 맞춰 설계
- TPU 8i의 SRAM 용량을 프로덕션 규모 추론 모델의 KV 캐시 크기에 맞춰 산정
- Virgo Network 패브릭의 대역폭 목표를 조 단위 파라미터 학습의 병렬화 요구에서 도출
- 두 칩 모두 처음으로 Google 자체 Axion ARM 기반 CPU 호스트에서 동작
- 칩만이 아니라 전체 시스템 단위로 성능과 효율 최적화 가능
- 두 플랫폼 모두 JAX, MaxText, PyTorch, SGLang, vLLM 네이티브 지원
- bare metal access 제공
- 가상화 오버헤드 없이 고객이 하드웨어에 직접 접근 가능
- 오픈소스 기여 항목으로 MaxText 참조 구현과 강화학습 지원용 Tunix 언급
- 역량과 프로덕션 배포 사이의 핵심 경로 지원 목적
대규모 전력 효율 중심 설계
- 오늘날 데이터센터에서는 칩 공급뿐 아니라 전력이 핵심 제약
- 실시간 수요에 따라 전력 소모를 동적으로 조정하는 통합 전력 관리 적용
- TPU 8t와 TPU 8i는 이전 세대 Ironwood 대비 와트당 성능을 최대 2배 개선
- Google의 효율은 칩 단위 지표에 그치지 않고 실리콘부터 데이터센터까지 이어지는 시스템 차원의 약속
- 네트워크 연결성과 연산을 같은 칩에 통합해 TPU pod 내부 데이터 이동 전력 비용을 크게 절감
- 데이터센터도 TPU와 공동 설계 대상
- 하드웨어와 소프트웨어 전반의 혁신으로 5년 전 대비 전력 단위당 6배 더 많은 연산 성능 제공
- 두 칩 모두 4세대 액체 냉각 기술 지원
- 공랭으로는 유지할 수 없는 성능 밀도 지속 목적
- Axion 호스트부터 가속기까지 전체 스택을 보유해, 호스트와 칩이 독립적으로 설계될 때 달성할 수 없는 시스템 수준 에너지 효율 최적화 가능
에이전트 시대를 위한 인프라
- 모든 주요 컴퓨팅 전환기마다 인프라 혁신이 필요했으며, 에이전트 시대도 예외 아님
- 인프라는 자율 에이전트의 연속적 추론, 계획, 실행, 학습 루프 요구에 맞춰 진화 필요
- TPU 8t와 TPU 8i를 이에 대한 해답으로 배치
- 가장 강력한 AI 모델 구축
- 정교하게 조율된 에이전트 군집 운영
- 가장 복잡한 추론 작업 관리 대상
- 두 칩 모두 올해 후반 일반 제공 예정
- Google AI Hypercomputer의 일부로 사용 가능
- 목적별 하드웨어인 연산, 저장장치, 네트워킹
- 개방형 소프트웨어인 프레임워크와 추론 엔진
- 오케스트레이션, 클러스터 관리, 전달 모델을 포함한 유연한 소비 방식
- 위 요소를 하나의 통합 스택으로 결합
- 관심 고객은 추가 정보 요청 가능
-
Homepage
-
개발자
- 에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU