1-bit Bonsai - 상업적으로 실용 가능한 최초의 1비트 LLM

3 hours ago 1

Caltech 연구에서 출발한 AI 스타트업 PrismML이 1-bit Bonsai 8B 모델을 공개하며, 기존 16비트 동급 모델 대비 약 14배 작은 1.15GB 크기로 스마트폰·엣지 디바이스에서의 실용적 AI 추론을 실현
전체 네트워크(임베딩, 어텐션, MLP, LM 헤드)를 예외 없이 1비트로 구성한 진정한 엔드투엔드 1비트 설계로, 기존 저비트 모델이 겪던 명령 수행·다단계 추론·툴 사용 품질 저하 문제를 극복
인텔리전스 밀도(Intelligence Density) 지표 기준으로 1.06/GB를 달성, 동급 파라미터 클래스에서 가장 가까운 경쟁 모델(Qwen3 8B, 0.10/GB) 대비 약 10.6배 우위
M4 Pro Mac에서 131 tok/s, RTX 4090에서 368 tok/s, iPhone 17 Pro Max에서 약 44 tok/s로 동작하며, 에너지 효율은 16비트 모델 대비 약 4~5배 우수
1-bit 전용 하드웨어가 설계될 경우 추가로 한 자릿수 배율의 성능·효율 향상 가능성이 열리며, 온디바이스 AI·로보틱스·보안 엔터프라이즈 등 새로운 배포 범주 확대

PrismML과 1-bit Bonsai 등장 배경

1-bit Bonsai 8B는 임베딩, 어텐션 레이어, MLP 레이어, LM 헤드 전체를 1비트로 구현하며, 고정밀도 탈출구(escape hatch) 없이 82억 파라미터 전체에 걸쳐 완전한 1비트 구조를 유지
기존 저비트 모델은 명령 수행, 다단계 추론, 툴 사용 신뢰성에서 큰 성능 손실이 발생해 실제 제품 기반으로 사용하기 어려웠음
Bonsai는 1비트 모델도 좁은 타협점이 아닌 프로덕션 수준의 완전한 시스템이 될 수 있음을 증명

인텔리전스 밀도는 벤치마크 전반의 평균 오류율의 로그 음수 값을 모델 크기로 나눈 수치로 정의
이 지표는 단순 벤치마크 평균보다 현실적인 지능 수준을 반영: 이미 높은 정확도에서의 추가 개선에 더 높은 가치를 부여
1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — 단순히 앞서는 수준이 아니라 다른 차원의 결과
원시 벤치마크 평균에서도 1-bit Bonsai 8B는 주요 8B급 모델들과 경쟁력 있는 성능을 유지하면서, 메모리 풋프린트는 1.15GB로 동급 대비 약 12~14배 작음

1.15GB 크기로 iPhone 17 Pro에서 구동 가능 — 기존 16비트 8B 모델은 어떤 iPhone에도 탑재 불가
디바이스별 추론 속도:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: 약 44 tok/s
50개의 티켓 요약·할당 작업을 시뮬레이션했을 때, 1-bit Bonsai 8B는 50개 모두 처리, 동일 조건의 16비트 8B 모델은 6개만 처리
장기 에이전트 워크로드에서 더 높은 처리량과 낮은 메모리 사용이 에이전트가 실질적으로 처리할 수 있는 작업량 자체를 확장

1-bit Bonsai 8B는 16비트 풀정밀도 모델 대비 약 4~5배 우수한 에너지 효율을 달성
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
AI가 근본적인 인프라로 자리잡기 위해서는 에너지 효율의 획기적 개선이 반드시 필요

현재 성능 향상은 1비트 모델의 축소된 메모리 풋프린트에서 주로 기인하며, 추론 시 1비트 가중치 구조를 완전히 활용하는 것은 아직 달성되지 않은 상태
MLP 같은 선형 레이어에서 1비트 가중치는 곱셈 연산을 덧셈으로 대체하는 것을 가능하게 함
1비트 추론 전용 하드웨어가 설계될 경우, 성능과 에너지 효율을 추가로 한 자릿수 배율만큼 향상 가능

1-bit Bonsai 4B와 1-bit Bonsai 1.7B 두 소형 모델도 함께 출시
20개의 주요 instruct 모델(1.2GB~16.4GB 범위)과 비교한 인텔리전스 vs 크기 산점도에서, Bonsai 패밀리 전체가 기존 Pareto 프런티어를 크게 왼쪽으로 이동시킴
기존 Pareto 프런티어는 Qwen3 0.6B, 1.7B, 4B, 8B 및 Ministral3 3B로 구성되어 있었으나, Bonsai 패밀리가 새로운 프런티어를 정의

모델이 온디바이스에서 구동될 정도로 작고 빠르고 효율적이 되면 AI 제품 설계 공간이 즉시 달라짐:
- 응답성 향상: 온디바이스 추론으로 네트워크 지연 없이 동작
- 프라이버시 강화: 민감 데이터가 디바이스 밖으로 나가지 않음
- 신뢰성 향상: 지속적인 클라우드 접속 의존도 감소
- 경제성 확보: 서버 측 배포가 비용 문제로 불가능했던 환경에서도 AI 활용 가능
새롭게 열리는 카테고리: 지속적 온디바이스 에이전트, 실시간 로보틱스, 보안 엔터프라이즈 코파일럿, 오프라인 지능, 대역폭·전력·규정 제약 환경을 위한 AI 네이티브 제품

1-bit Bonsai 8B는 Apple 기기(Mac, iPhone, iPad)에서 MLX 경유, NVIDIA GPU에서 llama.cpp CUDA 경유로 네이티브 실행 지원
모델 가중치는 현재 Apache 2.0 라이선스로 공개
훈련·평가·벤치마킹 프로세스의 전체 기술 세부사항은 공식 whitepaper에서 제공