로컬 기기용 1비트 Bonsai Image 4B 이미지 생성

1 week ago 12
  • Bonsai Image 4B는 노트북과 휴대폰 같은 로컬 하드웨어에서 고품질 확산 추론을 실행하도록 설계된 소형 이미지 생성 모델군임
  • 두 변형은 FLUX.2 Klein 4B 아키텍처를 유지하면서 확산 트랜스포머 가중치를 1-bit 또는 ternary 표현으로 바꿈
  • 확산 트랜스포머 크기는 원본 7.75GB에서 1-bit 0.93GB, ternary 1.21GB로 줄어 메모리 예산 부담을 낮춤
  • iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성하며, Mac M4 Pro에서는 약 6초와 MFLUX 대비 최대 5.6배 속도를 보임
  • ternary는 FLUX.2 Klein 4B 대비 95% 성능을 유지하고, 두 변형은 Apache 2.0 오픈 가중치와 코드로 공개될 예정임

로컬 이미지 생성을 위한 Bonsai Image 4B

  • Bonsai Image 4B는 노트북부터 휴대폰까지 로컬 하드웨어에서 고품질 확산 추론을 실행하도록 설계된 소형 이미지 생성 모델군임
  • 두 변형 모두 FLUX.2 Klein 4B를 기반으로 하며, 아키텍처는 유지한 채 확산 트랜스포머 가중치를 1-bit 또는 ternary 형태로 바꿈
  • 1-bit Bonsai Image 4B는 이진 {−1, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.125 유효 비트를 제공함
  • Ternary Bonsai Image 4B는 {−1, 0, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.71 유효 비트를 제공함
  • ternary 변형은 1-bit보다 크지만, 추가된 0 상태로 시각 품질과 프롬프트 충실도를 높임
  • Bonsai Image 4B는 오픈 가중치와 로컬 추론을 통해, 이 등급 모델을 실행하기 어려웠던 기기에서도 이미지 생성을 가능하게 하는 배포 형태를 목표로 함
  • PrismML 기준으로 Bonsai Image 4B는 해당 파라미터급 이미지 모델 중 iPhone에서 직접 실행되는 첫 모델

로컬 실행을 위한 메모리 절감

  • 로컬 이미지 생성의 핵심 제약은 모델이 기기 메모리 예산 안에 들어가야 한다는 점임
  • 4B급 이미지 모델에서는 확산 트랜스포머가 모델에서 가장 큰 부분이며, 생성 중 각 디노이징 단계마다 반복 실행됨
  • 트랜스포머 크기는 메모리 압박, 대역폭 요구, 로컬 추론 속도에 직접 영향을 줌
  • FLUX.2 Klein 4B의 확산 트랜스포머는 7.75GB이고, 1-bit Bonsai Image 4B는 0.93GB, Ternary Bonsai Image 4B는 1.21GB임
  • 1-bit 변형은 전체 정밀도 FLUX.2 Klein 4B 대비 8.3배, ternary 변형은 6.4배 작음
  • 이진 레이어 자체는 전체 정밀도 트랜스포머 가중치 대비 약 14배 줄어들지만, 정밀도에 민감한 약 5%의 projection layer는 FP16으로 유지됨
  • ternary 레이어는 약 10배 절감을 제공하며, 최종 트랜스포머 크기는 1.21GB가 됨

배포 페이로드와 런타임 메모리

  • 압축된 텍스트 인코더와 FP16 VAE를 포함한 Apple Silicon 배포 페이로드는 1-bit가 3.42GB, ternary가 3.88GB
  • 전체 정밀도 FLUX.2 Klein 4B의 배포 페이로드는 15.97GB
  • 런타임에서는 프롬프트 인코딩 후 텍스트 인코더가 오프로드되므로, 평균 메모리 사용량은 전체 페이로드보다 작아짐
  • 512×512 이미지 생성 시 평균 활성 메모리는 1-bit가 1.5GB, ternary가 1.96GB, 원본 FLUX.2 Klein 4B가 11.74GB
  • 512×512 기준 메모리 감소율은 1-bit가 7.8배, ternary가 6.0배임
  • 1024×1024 이미지 생성 시 평균 활성 메모리는 1-bit가 1.95GB, ternary가 2.38GB, 원본 FLUX.2 Klein 4B가 14.39GB
  • 1024×1024 기준 메모리 감소율은 1-bit가 7.4배, ternary가 6.0배임

지원 하드웨어와 실행 성능

  • 배포 스택은 Apple Silicon iPhone, iPad, Mac과 CUDA GPU를 지원함
  • Apple 하드웨어에서는 MLX low-bit 경로를 사용하고, CUDA에서는 Gemlite low-bit GEMM 커널을 사용함
  • iPhone 17 Pro Max에서는 전체 정밀도 FLUX.2 Klein 4B 파이프라인이 기기 메모리 예산 안에 들어가지 않지만, Bonsai Image 두 변형은 온디바이스로 실행됨
  • Bonsai Image 4B는 iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성함
  • Mac M4 Pro에서는 512×512 이미지를 약 6초에 생성함
  • Mac M4 Pro에서 Bonsai Image 4B는 기본 전체 정밀도 MFLUX 파이프라인보다 최대 5.6배 빠름

벤치마크 성능

  • Bonsai Image 4B는 GenEval, HPSv3, DPG-Bench 세 가지 벤치마크로 평가됨
  • GenEval은 객체 구성과 속성 바인딩을 평가하고, HPSv3는 인간 선호와 미적 품질을 평가하며, DPG-Bench는 조밀한 프롬프트 추종과 의미 충실도를 평가함
  • Ternary Bonsai Image 4B는 1.21GB 확산 트랜스포머로 GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851을 기록함
  • Ternary Bonsai Image 4B는 FLUX.2 Klein 4B 대비 95% 성능을 유지하면서 확산 트랜스포머 크기를 6.4배 줄임
  • 1-bit Bonsai Image 4B는 0.93GB 확산 트랜스포머로 GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822를 기록함
  • 1-bit Bonsai Image 4B는 FLUX.2 Klein 4B 대비 88% 성능을 유지하면서 확산 트랜스포머를 1GB 아래로 낮춤
  • FLUX.2 Klein 4B는 7.75GB 확산 트랜스포머로 GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853을 기록함
  • SDXL은 5.14GB 확산 트랜스포머로 GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74를 기록하며 FLUX.2 Klein 4B 대비 67% 성능을 보임
  • BK-SDM-Small은 0.98GB 확산 트랜스포머로 GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559를 기록하며 FLUX.2 Klein 4B 대비 42% 성능을 보임
  • Stable Diffusion 1.5는 1.72GB 확산 트랜스포머로 GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601을 기록하며 FLUX.2 Klein 4B 대비 51% 성능을 보임
  • PixArt-Σ XL 2는 1.2GB 확산 트랜스포머로 GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769를 기록하며 FLUX.2 Klein 4B 대비 83% 성능을 보임
  • 두 Bonsai 변형은 현대 4B급 이미지 모델과 경쟁하면서도 확산 트랜스포머 풋프린트를 훨씬 작게 유지함
  • 비슷한 메모리 풋프린트를 가진 더 작은 모델보다 성능이 높아, 기존에는 더 작고 낮은 성능의 모델이 차지하던 메모리 범위로 현대적인 확산 트랜스포머 동작을 가져옴

로컬 추론의 제품적 의미

  • 이미지 생성은 모델 품질뿐 아니라 배포 방식에도 좌우됨
  • 클라우드 API는 많은 제품에서 계속 적합하지만, 클라우드 전용 생성은 모든 프롬프트를 원격 요청으로 만들고, 모든 반복에 서빙 비용과 왕복 지연을 추가함
  • 이미지 생성은 자연스럽게 반복적이어서 사용자는 프롬프트를 수정하고, 결과를 비교하고, 변형을 만들고, 실패 결과를 버리고 다시 시도함
  • 각 시도가 서버 측 작업이면 창작 루프마다 사용자가 비용을 계산하고 기다려야 함
  • 로컬 추론은 모델이 기기에 들어간 뒤 생성 기능을 제품 경험 안에 직접 배치할 수 있게 함
  • 로컬 실행은 실행 비용을 낮추고, 반복 속도를 높이며, 프롬프트와 생성 자산이 비공개로 유지되어야 하는 환경에서 쓰기 쉬움
  • Bonsai Image 4B는 사용자가 이미 가진 하드웨어에서 사용자에게 더 가까운 위치로 옮겨가는 이미지 생성 배포 방식을 향한 단계임

공개 방식과 리소스

  • 1-bit Bonsai Image 4B와 Ternary Bonsai Image 4B는 오픈 가중치와 코드로 공개될 예정임
  • 라이선스는 Apache 2.0
  • PrismML은 iPhone에서 Bonsai Image 4B를 직접 시험해볼 수 있는 iOS 앱 Bonsai Studio도 함께 출시함
  • Whitepaper
  • Hugging Face
  • WebGPU demo
  • Bonsai Studio for iPhone
  • GitHub
Read Entire Article