구글의 Tensor Processing Unit 이해하기

1 month ago 15

  • TPU는 딥러닝에 꼭 필요한 계산만 남기고 나머지를 과감히 버린 Google의 도메인 특화 가속기
  • 2013년 데이터센터 확장 한계를 계기로 시작되어, 12년 만에 7세대인 ‘Ironwood’까지 발전
  • 반도체 성능이 자동으로 좋아지던 시대가 끝나며, 기다리지 않고 직접 설계하는 전략이 핵심 선택지가 됨
  • TPU는 칩 하나가 아니라 하드웨어·컴파일러·네트워크·운영 소프트웨어의 공동설계 시스템
  • 세대가 거듭될수록 성능 경쟁보다 전력·배치·운영 비용(TCO) 이 설계의 중심으로 이동함
  • TPU의 경쟁력은 단일 기술이 아니라 10년 이상 축적된 설계·운영 경험의 합에 있음

Something New

  • TPU는 비밀 병기가 아니라, 오랜 시간 공개 연구와 내부 반복으로 다듬어진 결과물
  • Google은 데이터센터를 계속 키우는 대신, 계산 방식을 근본적으로 바꾸는 길을 선택함
  • 2013년 무렵 데이터센터 용량을 두 배로 늘려야 하는 압력과 시간 제약이 15개월 만의 TPU 탄생으로 연결됨
  • 2025년 4월 Google Cloud Next에서 7세대 TPU Ironwood 발표, 9,216칩/pod, 42.5 Exaflops, 10MW 수치 제시
  • GPU는 딥러닝을 위해 만들어진 장치가 아니었고, TPU는 처음부터 신경망 계산을 전제로 설계됨
  • 이 선택으로 연산 성능뿐 아니라 전력 효율과 운영 안정성에서 구조적 이점을 확보함
  • “우연”이 아니라 제약·트레이드오프·공동설계의 반복으로 누적된 결과

Slowing Down

  • Moore’s Law와 Dennard Scaling의 약화로 예전에는 새 CPU를 기다리기만 해도 프로그램이 빨라졌지만, 그 전제는 무너짐
  • 트랜지스터 증가는 계속되지만 전력·발열 한계가 성능 향상을 가로막음
  • 동시에 신경망은 더 큰 데이터와 더 큰 모델을 요구하며 계산 수요가 폭증함
  • 이에 따라 “모든 일을 조금씩 잘하는 칩”보다 “한 가지 일을 극도로 잘하는 칩” 이 필요해짐
  • 신경망 계산의 핵심이 행렬 곱 중심의 반복 연산이라는 점이 특화 설계를 가능하게 함

The Inference Chip

  • 첫 TPU는 학습이 아닌 추론(Inference), 즉 이미 학습된 모델 실행에 집중함
  • TPUv1은 캐시·분기 예측·멀티스레딩을 제거해 제어 비용을 최소화함
  • 대신 대형 행렬 곱을 쉬지 않고 처리하는 Systolic Array(MXU) 에 모든 자원을 집중함
  • 실행 중 판단을 하지 않고 컴파일 시점에 확정된 실행 순서를 그대로 따름
  • 그 결과 같은 전력으로 GPU·CPU 대비 훨씬 많은 추론 작업을 처리함

The Training Chip

  • 학습은 추론보다 훨씬 많은 계산과 더 넓은 수치 표현 범위를 요구함
  • TPUv2부터는 추론 전용 구조를 넘어 학습을 위한 유연성이 추가됨
  • 핵심 변화는 행렬(MXU)·벡터(VPU)·제어(Scalar Unit)의 역할 분리
  • 실행 흐름은 XLA 컴파일러가 미리 계산하고 결정하며, 칩은 이를 그대로 수행함
  • 여러 TPU가 하나의 장치처럼 작동하도록 전용 고속 인터커넥트(ICI) 가 함께 설계됨

Scaling Up

  • 시스템이 커지며 질문은 “얼마나 빠른가”에서 “얼마나 오래, 싸게 굴릴 수 있는가” 로 이동함
  • 이를 위해 연산 장치 가까이에 대형 온칩 메모리(CMEM) 를 두어 느린 DRAM 접근을 줄임
  • 추천 시스템처럼 희소 데이터가 많은 작업을 위해 SparseCore 같은 전용 유닛도 도입됨
  • 칩 내부 통신과 칩 간 통신을 분리해 배선 복잡도와 병목을 구조적으로 완화
  • 성능 수치보다 운영 효율이 전체 설계를 좌우하게 됨

Island Hopping

  • 수천 개의 TPU를 쓰는 환경에서는 고장이 예외가 아니라 전제
  • 목표는 멈추지 않는 시스템, 즉 부분 실패를 흡수하는 구조
  • 작업은 여러 TPU에 나뉘어 실행되지만 하나의 프로그램처럼 보이도록 관리
  • 문제가 생기면 전체를 멈추기보다 빠른 재배치와 재시작을 선택함
  • 이 복잡한 과정은 대부분 운영 소프트웨어가 자동으로 처리

Datacenter Network 확장

  • 하나의 TPU 묶음으로 부족해지면 여러 묶음을 연결해야 함
  • 일반 네트워크로는 한계가 있어 광 기반 스위칭(OCS) 이 도입됨
  • 이를 통해 데이터센터 전체를 하나의 거대한 계산 자원처럼 구성 가능해짐
  • 기존 실행 모델을 확장하는 방식과, 완전히 새로운 비동기 실행 모델(Pathways) 이 공존함
  • 더 큰 모델과 더 복잡한 통신 패턴을 감당할 수 있게 됨

Ceci n’est pas une TPU

  • 최신 TPU는 수치만 보면 압도적이지만, 핵심 원칙은 초기와 동일
  • 필요한 계산에 집중하고 불필요한 복잡함을 제거하는 방향 유지됨
  • 하드웨어 스펙만으로는 이 시스템을 복제할 수 없음
  • 컴파일러(XLA), 전용 인터커넥트(ICI), 광 스위칭(OCS), 운영 스케줄러가 함께 작동해야 함
  • TPU는 한 번의 발명이 아니라 수백 번의 평범한 선택이 누적된 결과

꼭 기억할 핵심 기술 몇 가지

  • Systolic Array(MXU): 행렬 곱을 고효율로 처리하는 TPU의 심장
  • XLA 컴파일러: 실행 순서를 미리 계산해 제어 비용을 제거
  • BF16: 학습에 필요한 범위를 유지하면서 하드웨어 비용을 줄인 수치 형식
  • ICI / OCS: 칩·랙·데이터센터를 하나로 묶는 전용 통신 구조
  • TCO 중심 설계: 순간 성능보다 장기 운영 비용을 최적화하는 사고방식

Read Entire Article