구글의 Tensor Processing Unit 이해하기

1 month ago 15

TPU는 딥러닝에 꼭 필요한 계산만 남기고 나머지를 과감히 버린 Google의 도메인 특화 가속기
2013년 데이터센터 확장 한계를 계기로 시작되어, 12년 만에 7세대인 ‘Ironwood’까지 발전
반도체 성능이 자동으로 좋아지던 시대가 끝나며, 기다리지 않고 직접 설계하는 전략이 핵심 선택지가 됨
TPU는 칩 하나가 아니라 하드웨어·컴파일러·네트워크·운영 소프트웨어의 공동설계 시스템임
세대가 거듭될수록 성능 경쟁보다 전력·배치·운영 비용(TCO) 이 설계의 중심으로 이동함
TPU의 경쟁력은 단일 기술이 아니라 10년 이상 축적된 설계·운영 경험의 합에 있음

Something New

TPU는 비밀 병기가 아니라, 오랜 시간 공개 연구와 내부 반복으로 다듬어진 결과물임
Google은 데이터센터를 계속 키우는 대신, 계산 방식을 근본적으로 바꾸는 길을 선택함
2013년 무렵 데이터센터 용량을 두 배로 늘려야 하는 압력과 시간 제약이 15개월 만의 TPU 탄생으로 연결됨
2025년 4월 Google Cloud Next에서 7세대 TPU Ironwood 발표, 9,216칩/pod, 42.5 Exaflops, 10MW 수치 제시
GPU는 딥러닝을 위해 만들어진 장치가 아니었고, TPU는 처음부터 신경망 계산을 전제로 설계됨
이 선택으로 연산 성능뿐 아니라 전력 효율과 운영 안정성에서 구조적 이점을 확보함
“우연”이 아니라 제약·트레이드오프·공동설계의 반복으로 누적된 결과

Slowing Down

Moore’s Law와 Dennard Scaling의 약화로 예전에는 새 CPU를 기다리기만 해도 프로그램이 빨라졌지만, 그 전제는 무너짐
트랜지스터 증가는 계속되지만 전력·발열 한계가 성능 향상을 가로막음
동시에 신경망은 더 큰 데이터와 더 큰 모델을 요구하며 계산 수요가 폭증함
이에 따라 “모든 일을 조금씩 잘하는 칩”보다 “한 가지 일을 극도로 잘하는 칩” 이 필요해짐
신경망 계산의 핵심이 행렬 곱 중심의 반복 연산이라는 점이 특화 설계를 가능하게 함

The Inference Chip

첫 TPU는 학습이 아닌 추론(Inference), 즉 이미 학습된 모델 실행에 집중함
TPUv1은 캐시·분기 예측·멀티스레딩을 제거해 제어 비용을 최소화함
대신 대형 행렬 곱을 쉬지 않고 처리하는 Systolic Array(MXU) 에 모든 자원을 집중함
실행 중 판단을 하지 않고 컴파일 시점에 확정된 실행 순서를 그대로 따름
그 결과 같은 전력으로 GPU·CPU 대비 훨씬 많은 추론 작업을 처리함

The Training Chip

학습은 추론보다 훨씬 많은 계산과 더 넓은 수치 표현 범위를 요구함
TPUv2부터는 추론 전용 구조를 넘어 학습을 위한 유연성이 추가됨
핵심 변화는 행렬(MXU)·벡터(VPU)·제어(Scalar Unit)의 역할 분리임
실행 흐름은 XLA 컴파일러가 미리 계산하고 결정하며, 칩은 이를 그대로 수행함
여러 TPU가 하나의 장치처럼 작동하도록 전용 고속 인터커넥트(ICI) 가 함께 설계됨

Scaling Up

시스템이 커지며 질문은 “얼마나 빠른가”에서 “얼마나 오래, 싸게 굴릴 수 있는가” 로 이동함
이를 위해 연산 장치 가까이에 대형 온칩 메모리(CMEM) 를 두어 느린 DRAM 접근을 줄임
추천 시스템처럼 희소 데이터가 많은 작업을 위해 SparseCore 같은 전용 유닛도 도입됨
칩 내부 통신과 칩 간 통신을 분리해 배선 복잡도와 병목을 구조적으로 완화함
성능 수치보다 운영 효율이 전체 설계를 좌우하게 됨

Island Hopping

수천 개의 TPU를 쓰는 환경에서는 고장이 예외가 아니라 전제임
목표는 멈추지 않는 시스템, 즉 부분 실패를 흡수하는 구조임
작업은 여러 TPU에 나뉘어 실행되지만 하나의 프로그램처럼 보이도록 관리됨
문제가 생기면 전체를 멈추기보다 빠른 재배치와 재시작을 선택함
이 복잡한 과정은 대부분 운영 소프트웨어가 자동으로 처리함

Datacenter Network 확장

하나의 TPU 묶음으로 부족해지면 여러 묶음을 연결해야 함
일반 네트워크로는 한계가 있어 광 기반 스위칭(OCS) 이 도입됨
이를 통해 데이터센터 전체를 하나의 거대한 계산 자원처럼 구성 가능해짐
기존 실행 모델을 확장하는 방식과, 완전히 새로운 비동기 실행 모델(Pathways) 이 공존함
더 큰 모델과 더 복잡한 통신 패턴을 감당할 수 있게 됨

Ceci n’est pas une TPU

최신 TPU는 수치만 보면 압도적이지만, 핵심 원칙은 초기와 동일함
필요한 계산에 집중하고 불필요한 복잡함을 제거하는 방향 유지됨
하드웨어 스펙만으로는 이 시스템을 복제할 수 없음
컴파일러(XLA), 전용 인터커넥트(ICI), 광 스위칭(OCS), 운영 스케줄러가 함께 작동해야 함
TPU는 한 번의 발명이 아니라 수백 번의 평범한 선택이 누적된 결과임

꼭 기억할 핵심 기술 몇 가지

Systolic Array(MXU): 행렬 곱을 고효율로 처리하는 TPU의 심장
XLA 컴파일러: 실행 순서를 미리 계산해 제어 비용을 제거
BF16: 학습에 필요한 범위를 유지하면서 하드웨어 비용을 줄인 수치 형식
ICI / OCS: 칩·랙·데이터센터를 하나로 묶는 전용 통신 구조
TCO 중심 설계: 순간 성능보다 장기 운영 비용을 최적화하는 사고방식

Read Entire Article