1-bit Bonsai - 상업적으로 실용 가능한 최초의 1비트 LLM

3 hours ago 1
  • Caltech 연구에서 출발한 AI 스타트업 PrismML이 1-bit Bonsai 8B 모델을 공개하며, 기존 16비트 동급 모델 대비 약 14배 작은 1.15GB 크기로 스마트폰·엣지 디바이스에서의 실용적 AI 추론을 실현
  • 전체 네트워크(임베딩, 어텐션, MLP, LM 헤드)를 예외 없이 1비트로 구성한 진정한 엔드투엔드 1비트 설계로, 기존 저비트 모델이 겪던 명령 수행·다단계 추론·툴 사용 품질 저하 문제를 극복
  • 인텔리전스 밀도(Intelligence Density) 지표 기준으로 1.06/GB를 달성, 동급 파라미터 클래스에서 가장 가까운 경쟁 모델(Qwen3 8B, 0.10/GB) 대비 약 10.6배 우위
  • M4 Pro Mac에서 131 tok/s, RTX 4090에서 368 tok/s, iPhone 17 Pro Max에서 약 44 tok/s로 동작하며, 에너지 효율은 16비트 모델 대비 약 4~5배 우수
  • 1-bit 전용 하드웨어가 설계될 경우 추가로 한 자릿수 배율의 성능·효율 향상 가능성이 열리며, 온디바이스 AI·로보틱스·보안 엔터프라이즈 등 새로운 배포 범주 확대

PrismML과 1-bit Bonsai 등장 배경

  • 지난 10년간 AI 발전은 모델을 더 크게 만드는 방향(더 많은 파라미터, GPU, 전력, 메모리, 비용)으로 진행되어 왔음
  • 그 결과 가장 뛰어난 지능이 대규모 클러스터와 전용 인프라 안에 갇히는 구조적 제약이 생김
  • 실제로 AI가 필요한 공간은 데이터센터에 국한되지 않으며, 스마트폰·노트북·차량·로봇·보안 엔터프라이즈·엣지 디바이스 등 다양
  • PrismML은 Caltech 연구팀에서 출발했으며, Khosla Ventures, Cerberus, Google의 지원을 받아 설립
  • 지능 밀도(Intelligence Density) — 모델 크기(GB) 단위당 제공 가능한 지능의 양 — 를 핵심 최적화 지표로 설정

진정한 1비트 모델 설계

  • 1-bit Bonsai 8B는 임베딩, 어텐션 레이어, MLP 레이어, LM 헤드 전체를 1비트로 구현하며, 고정밀도 탈출구(escape hatch) 없이 82억 파라미터 전체에 걸쳐 완전한 1비트 구조를 유지
  • 기존 저비트 모델은 명령 수행, 다단계 추론, 툴 사용 신뢰성에서 큰 성능 손실이 발생해 실제 제품 기반으로 사용하기 어려웠음
  • Bonsai는 1비트 모델도 좁은 타협점이 아닌 프로덕션 수준의 완전한 시스템이 될 수 있음을 증명

인텔리전스 밀도(Intelligence Density) 측정

  • 인텔리전스 밀도는 벤치마크 전반의 평균 오류율의 로그 음수 값을 모델 크기로 나눈 수치로 정의
  • 이 지표는 단순 벤치마크 평균보다 현실적인 지능 수준을 반영: 이미 높은 정확도에서의 추가 개선에 더 높은 가치를 부여
  • 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — 단순히 앞서는 수준이 아니라 다른 차원의 결과
  • 원시 벤치마크 평균에서도 1-bit Bonsai 8B는 주요 8B급 모델들과 경쟁력 있는 성능을 유지하면서, 메모리 풋프린트는 1.15GB로 동급 대비 약 12~14배 작음

크기와 속도

  • 1.15GB 크기로 iPhone 17 Pro에서 구동 가능 — 기존 16비트 8B 모델은 어떤 iPhone에도 탑재 불가
  • 디바이스별 추론 속도:
    • M4 Pro Mac: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: 약 44 tok/s
  • 50개의 티켓 요약·할당 작업을 시뮬레이션했을 때, 1-bit Bonsai 8B는 50개 모두 처리, 동일 조건의 16비트 8B 모델은 6개만 처리
  • 장기 에이전트 워크로드에서 더 높은 처리량과 낮은 메모리 사용이 에이전트가 실질적으로 처리할 수 있는 작업량 자체를 확장

에너지 효율

  • 1-bit Bonsai 8B는 16비트 풀정밀도 모델 대비 약 4~5배 우수한 에너지 효율을 달성
    • M4 Pro: 0.074 mWh/tok
    • iPhone 17 Pro Max: 0.068 mWh/tok
  • AI가 근본적인 인프라로 자리잡기 위해서는 에너지 효율의 획기적 개선이 반드시 필요

1비트 전용 하드웨어의 잠재력

  • 현재 성능 향상은 1비트 모델의 축소된 메모리 풋프린트에서 주로 기인하며, 추론 시 1비트 가중치 구조를 완전히 활용하는 것은 아직 달성되지 않은 상태
  • MLP 같은 선형 레이어에서 1비트 가중치는 곱셈 연산을 덧셈으로 대체하는 것을 가능하게 함
  • 1비트 추론 전용 하드웨어가 설계될 경우, 성능과 에너지 효율을 추가로 한 자릿수 배율만큼 향상 가능

Bonsai 4B 및 1.7B 모델

  • 1-bit Bonsai 4B1-bit Bonsai 1.7B 두 소형 모델도 함께 출시
  • 20개의 주요 instruct 모델(1.2GB~16.4GB 범위)과 비교한 인텔리전스 vs 크기 산점도에서, Bonsai 패밀리 전체가 기존 Pareto 프런티어를 크게 왼쪽으로 이동시킴
  • 기존 Pareto 프런티어는 Qwen3 0.6B, 1.7B, 4B, 8B 및 Ministral3 3B로 구성되어 있었으나, Bonsai 패밀리가 새로운 프런티어를 정의

집약된 지능이 가능케 하는 것

  • 모델이 온디바이스에서 구동될 정도로 작고 빠르고 효율적이 되면 AI 제품 설계 공간이 즉시 달라짐:
    • 응답성 향상: 온디바이스 추론으로 네트워크 지연 없이 동작
    • 프라이버시 강화: 민감 데이터가 디바이스 밖으로 나가지 않음
    • 신뢰성 향상: 지속적인 클라우드 접속 의존도 감소
    • 경제성 확보: 서버 측 배포가 비용 문제로 불가능했던 환경에서도 AI 활용 가능
  • 새롭게 열리는 카테고리: 지속적 온디바이스 에이전트, 실시간 로보틱스, 보안 엔터프라이즈 코파일럿, 오프라인 지능, 대역폭·전력·규정 제약 환경을 위한 AI 네이티브 제품

플랫폼 지원 및 공개 방식

  • 1-bit Bonsai 8B는 Apple 기기(Mac, iPhone, iPad)에서 MLX 경유, NVIDIA GPU에서 llama.cpp CUDA 경유로 네이티브 실행 지원
  • 모델 가중치는 현재 Apache 2.0 라이선스로 공개
  • 훈련·평가·벤치마킹 프로세스의 전체 기술 세부사항은 공식 whitepaper에서 제공
Read Entire Article