에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU

3 weeks ago 14
  • 학습과 추론을 분리한 TPU 8tTPU 8i 공개, 최첨단 모델 학습·에이전트 개발·대규모 추론 워크로드를 겨냥한 맞춤형 인프라 제공
  • TPU 8t는 높은 연산 처리량과 대규모 공유 메모리, 확장성을 바탕으로 프런티어 모델 개발 주기를 수개월에서 수주로 줄이도록 설계됐으며, pod당 연산 성능은 이전 세대 대비 거의 3배로 확대
  • TPU 8i는 메모리 대역폭과 지연 시간 최적화에 초점을 맞춰 에이전트형 추론에 맞게 재설계됐고, 온칩 SRAM 확대와 Axion CPU 호스트, MoE 대응 네트워크 개선으로 성능 대비 비용 80% 개선 달성
  • 두 칩은 Google DeepMind와의 공동 설계를 바탕으로 최신 학습·추론 모델 요구를 반영했으며, JAX·PyTorch·vLLM 등 네이티브 지원과 bare metal access 제공
  • 전력 제약이 커진 데이터센터 환경에 맞춰 전력 효율을 시스템 단위로 끌어올렸고, 두 칩 모두 올해 후반 일반 제공 예정이며 Google AI Hypercomputer의 일부로 사용 가능

8세대 TPU 공개

  • TPU 8tTPU 8i를 각각 학습과 추론에 특화한 두 가지 아키텍처로 공개, Google의 맞춤형 슈퍼컴퓨터 구동 대상
    • 두 칩 모두 최첨단 모델 학습, 에이전트 개발, 대규모 추론 워크로드 지원
    • TPUs가 수년간 Gemini를 포함한 주요 파운데이션 모델 구동에 사용돼 왔다는 언급 포함
  • AI 에이전트 시대에는 모델이 문제를 추론하고, 다단계 워크플로를 실행하며, 자체 행동으로부터 학습하는 연속 루프 수행
    • 이에 맞는 새로운 인프라 요구 발생
    • TPU 8t와 TPU 8i를 Google DeepMind와의 협업으로 설계, 가장 까다로운 AI 워크로드와 대규모 모델 아키텍처 변화 대응 목적
  • TPU는 맞춤형 수치 연산, 액체 냉각, 맞춤형 인터커넥트 등을 포함한 ML 슈퍼컴퓨팅 구성요소의 기준점
    • 8세대 TPU를 10년 이상 개발의 집대성으로 규정
    • 실리콘, 하드웨어, 네트워킹, 소프트웨어, 모델 아키텍처, 애플리케이션 요구사항을 함께 설계해 전력 효율과 절대 성능을 크게 높인다는 설계 원칙 유지
  • Citadel Securities가 TPU를 선택해 최첨단 AI 워크로드를 구동 중이라는 사례 언급

지금 시점에 맞춘 두 개의 칩

  • 하드웨어 개발 주기가 소프트웨어보다 훨씬 길기 때문에, TPU 세대 설계 시 출시 시점의 기술과 수요를 미리 고려
    • 수년 전부터 최첨단 AI 모델의 프로덕션 배치와 확산에 따라 고객의 추론 수요 증가 예상
  • AI 에이전트 확산에 따라 학습과 서비스 요구에 각각 맞춘 칩 분리 필요
    • TPU 8t는 더 큰 연산 처리량과 더 높은 scale-up 대역폭을 바탕으로 대규모 고연산 학습 워크로드 대상
    • TPU 8i는 더 큰 메모리 대역폭을 바탕으로 지연 시간 민감도가 높은 추론 워크로드 대상
  • 에이전트 간 상호작용이 대규모로 늘어나면 작은 비효율도 확대된다는 점이 TPU 8i 설계 배경
  • 두 칩 모두 다양한 워크로드 실행 가능하지만, 전문화를 통해 의미 있는 효율과 성능 향상 확보

TPU 8t: 학습용 고성능 시스템

  • TPU 8t를 프런티어 모델 개발 주기를 수개월에서 수주로 줄이는 목적의 시스템으로 설계
    • 높은 연산 처리량, 공유 메모리, 칩 간 대역폭, 전력 효율, 실제 생산적 연산 시간의 균형 추구
    • 이전 세대 대비 pod당 연산 성능을 거의 3배로 높였다고 명시
  • 대규모 확장

    • 단일 TPU 8t superpod를 9,600개 칩과 2페타바이트의 공유 고대역폭 메모리까지 확장 가능
    • 이전 세대 대비 칩 간 대역폭 2배
    • 121 ExaFlops 연산 성능 제공
    • 가장 복잡한 모델도 단일 대규모 메모리 풀 활용 가능
  • 최대 활용도

    • 저장장치 접근 속도를 10배 높이고, TPUDirect를 결합해 TPU로 직접 데이터 로드 지원
    • 엔드투엔드 시스템 활용도 극대화 목적
  • 근사 선형 확장

    • Virgo Network, JAX, Pathways 소프트웨어 조합으로 단일 논리 클러스터에서 최대 100만 개 칩까지 근사 선형 확장 제공
    • 원시 성능 외에도 TPU 8t는 97% 이상의 goodput 목표
    • goodput을 유용하고 생산적인 실제 연산 시간의 지표로 정의
    • RAS 기능군으로 신뢰성, 가용성, 서비스 용이성 강화
    • 수만 개 칩 전반의 실시간 텔레메트리 제공
    • 작업 중단 없이 결함 있는 ICI 링크를 자동 탐지하고 우회
    • Optical Circuit Switching (OCS) 로 사람 개입 없이 장애 지점을 기준으로 하드웨어 재구성
    • 하드웨어 장애, 네트워크 정체, 체크포인트 재시작이 모두 학습 중단 시간으로 이어지며, 프런티어 학습 규모에서는 1%포인트 차이도 며칠의 실제 학습 시간으로 환산된다고 명시

TPU 8i: 추론과 추론형 에이전트용 엔진

  • TPU 8i를 질문 응답, 작업 위임, 결과 산출이 필요한 에이전트 시대의 추론용 시스템으로 설계
    • 다수의 특화 에이전트가 복잡한 흐름 속에서 함께 작동하는 협업적이고 반복적인 작업 처리 대상
  • 스택을 다시 설계해 “waiting room” 효과 제거 추진
  • 메모리 병목 해소

    • 프로세서 유휴화를 막기 위해 288GB의 고대역폭 메모리와 384MB의 온칩 SRAM 결합
    • 온칩 SRAM은 이전 세대 대비 3배
    • 모델의 활성 작업 집합 전체를 온칩에 유지 목표
  • Axion 기반 효율

    • 서버당 물리 CPU 호스트 수를 2배로 늘리고, 맞춤형 Axion Arm 기반 CPU로 전환
    • NUMA를 격리 용도로 활용해 전체 시스템 성능 최적화
  • MoE 모델 확장

    • 현대적 Mixture of Expert (MoE) 모델을 위해 ICI 대역폭을 19.2 Tb/s로 2배 확대
    • 새로운 Boardfly 아키텍처로 최대 네트워크 지름을 50% 이상 축소
    • 시스템 전체를 하나의 일관된 저지연 단위처럼 동작하도록 설계
  • 지연 최소화

    • 온칩 Collectives Acceleration Engine (CAE) 가 전역 연산 오프로딩
    • 온칩 지연 시간을 최대 5배까지 줄여 지연 최소화
    • 위 혁신으로 이전 세대 대비 성능 대비 비용 80% 개선
    • 같은 비용으로 거의 2배의 고객 볼륨 서비스 가능
    • TPU 8i pod 토폴로지는 4개 완전 연결 칩 블록에서 시작해 8개 보드 완전 연결 그룹으로 확장되며, 이런 그룹 36개가 완전 연결되는 구조라는 설명 포함

Gemini와 공동 설계, 모두에게 개방

  • 8세대 TPU를 AI의 큰 장애물을 해결하기 위한 공동 설계 철학의 최신 결과물로 규정
  • 설계 반영 항목

    • Boardfly 토폴로지를 최신 고성능 추론 모델의 통신 요구에 맞춰 설계
    • TPU 8i의 SRAM 용량을 프로덕션 규모 추론 모델의 KV 캐시 크기에 맞춰 산정
    • Virgo Network 패브릭의 대역폭 목표를 조 단위 파라미터 학습의 병렬화 요구에서 도출
    • 두 칩 모두 처음으로 Google 자체 Axion ARM 기반 CPU 호스트에서 동작
    • 칩만이 아니라 전체 시스템 단위로 성능과 효율 최적화 가능
    • 두 플랫폼 모두 JAX, MaxText, PyTorch, SGLang, vLLM 네이티브 지원
    • bare metal access 제공
    • 가상화 오버헤드 없이 고객이 하드웨어에 직접 접근 가능
    • 오픈소스 기여 항목으로 MaxText 참조 구현과 강화학습 지원용 Tunix 언급
    • 역량과 프로덕션 배포 사이의 핵심 경로 지원 목적

대규모 전력 효율 중심 설계

  • 오늘날 데이터센터에서는 칩 공급뿐 아니라 전력이 핵심 제약
    • 실시간 수요에 따라 전력 소모를 동적으로 조정하는 통합 전력 관리 적용
  • TPU 8t와 TPU 8i는 이전 세대 Ironwood 대비 와트당 성능을 최대 2배 개선
  • Google의 효율은 칩 단위 지표에 그치지 않고 실리콘부터 데이터센터까지 이어지는 시스템 차원의 약속
  • 네트워크 연결성과 연산을 같은 칩에 통합해 TPU pod 내부 데이터 이동 전력 비용을 크게 절감
  • 데이터센터도 TPU와 공동 설계 대상
    • 하드웨어와 소프트웨어 전반의 혁신으로 5년 전 대비 전력 단위당 6배 더 많은 연산 성능 제공
  • 두 칩 모두 4세대 액체 냉각 기술 지원
    • 공랭으로는 유지할 수 없는 성능 밀도 지속 목적
  • Axion 호스트부터 가속기까지 전체 스택을 보유해, 호스트와 칩이 독립적으로 설계될 때 달성할 수 없는 시스템 수준 에너지 효율 최적화 가능

에이전트 시대를 위한 인프라

  • 모든 주요 컴퓨팅 전환기마다 인프라 혁신이 필요했으며, 에이전트 시대도 예외 아님
  • 인프라는 자율 에이전트의 연속적 추론, 계획, 실행, 학습 루프 요구에 맞춰 진화 필요
  • TPU 8t와 TPU 8i를 이에 대한 해답으로 배치
    • 가장 강력한 AI 모델 구축
    • 정교하게 조율된 에이전트 군집 운영
    • 가장 복잡한 추론 작업 관리 대상
  • 두 칩 모두 올해 후반 일반 제공 예정
  • Google AI Hypercomputer의 일부로 사용 가능
    • 목적별 하드웨어인 연산, 저장장치, 네트워킹
    • 개방형 소프트웨어인 프레임워크와 추론 엔진
    • 오케스트레이션, 클러스터 관리, 전달 모델을 포함한 유연한 소비 방식
    • 위 요소를 하나의 통합 스택으로 결합
  • 관심 고객은 추가 정보 요청 가능
Read Entire Article