FLUX.2 [klein]: 상호작용형 시각 지능을 향하여

3 weeks ago 9

  • FLUX.2 [klein] 은 이미지 생성과 편집을 통합한 초고속 시각 생성 모델군으로, 1초 미만의 추론 속도와 소비자용 GPU 호환성을 제공
  • 텍스트-이미지, 이미지 편집, 다중 참조 생성 기능을 단일 아키텍처에서 지원하며, 품질은 대형 모델 수준 유지
  • 9B 모델은 FLUX NCL 라이선스, 4B 모델은 Apache 2.0 라이선스로 공개되어 개발자 접근성과 커스터마이징 용이
  • FP8·NVFP4 양자화 버전은 NVIDIA와 협력해 제작되어 VRAM 사용량을 최대 55% 절감하고 속도를 최대 2.7배 향상
  • 실시간 생성과 상호작용을 목표로 한 ‘인터랙티브 비주얼 인텔리전스’ 비전을 향한 단계로, 실시간 디자인·콘텐츠 제작 도구에 활용 가능

FLUX.2 [klein] 개요

  • FLUX.2 [klein]은 Black Forest Labs가 공개한 가장 빠른 이미지 생성 모델군으로, 생성과 편집을 하나의 구조로 통합
    • 엔드투엔드 추론 속도는 1초 미만, 고품질 이미지를 실시간으로 생성
    • 13GB VRAM만으로 구동 가능해 RTX 3090/4070급 GPU에서도 실행 가능
  • 모델명 ‘klein’은 독일어로 ‘작은’을 뜻하며, 소형 구조와 낮은 지연시간을 의미
    • 그러나 성능은 대형 모델에 필적하며, 텍스트-이미지 생성·편집·다중 참조 생성을 모두 지원

주요 특징

  • 0.5초 미만 추론으로 이미지 생성 또는 편집 가능
  • 사진 수준의 사실감과 높은 다양성 제공
  • 통합형 모델 구조로 텍스트-이미지, 이미지-이미지, 다중 참조 작업을 단일 모델에서 수행
  • 소비자용 GPU 호환성 확보: 4B 모델은 약 13GB VRAM에서 작동
  • 개발자 친화성 강화: 4B 모델은 Apache 2.0, 9B 모델은 FLUX NCL로 공개
  • API 및 오픈 가중치 제공으로 로컬 실행 및 프로덕션 배포 모두 가능

모델 구성

FLUX.2 [klein] 9B

  • 주력 모델로, 품질과 지연시간의 균형을 정의
    • 텍스트-이미지, 단일 참조 편집, 다중 참조 생성에서 5배 큰 모델과 동등 이상 성능
    • 0.5초 미만의 추론 속도
    • 9B 플로우 모델8B Qwen3 텍스트 임베더 기반
    • 4단계 추론(step-distilled) 구조로 효율성 극대화
  • 라이선스: FLUX NCL

FLUX.2 [klein] 4B

  • Apache 2.0 라이선스로 완전 공개된 모델
    • RTX 3090/4070 등 소비자 GPU에서 실행 가능
    • 텍스트-이미지(T2I) , 이미지-이미지(I2I) , 다중 참조 생성 지원
    • 소형이지만 크기 대비 높은 품질 제공
    • 로컬 개발 및 엣지 배포에 적합

FLUX.2 [klein] Base 9B / 4B

  • 비증류(full-capacity) 버전으로, 학습 신호를 완전히 보존
    • 파인튜닝, LoRA 학습, 연구용 파이프라인에 적합
    • 증류 모델보다 출력 다양성이 높음
  • 라이선스: 4B Base는 Apache 2.0, 9B Base는 FLUX NCL

양자화 버전

  • NVIDIA와 협력해 FP8NVFP4 버전 공개
    • FP8: 최대 1.6배 빠르고 VRAM 40% 절감
    • NVFP4: 최대 2.7배 빠르고 VRAM 55% 절감
    • RTX 5080/5090 기준 1024×1024 T2I 벤치마크 수행
  • 동일한 라이선스 체계 유지: 4B는 Apache 2.0, 9B는 FLUX NCL

성능 분석

  • FLUX.2 [klein]은 Qwen 대비 낮은 지연시간과 VRAM 사용량으로 동등 이상의 품질 달성
  • Z-Image보다 우수한 성능을 보이며, 텍스트-이미지와 다중 참조 편집을 단일 모델에서 지원
  • Base 버전은 속도는 다소 낮지만 커스터마이징과 연구 적합성이 높음
  • 속도 측정은 GB200 (bf16) 환경에서 수행

인터랙티브 비주얼 인텔리전스 비전

  • FLUX.2 [klein]은 단순한 속도 향상을 넘어 실시간 상호작용형 시각 지능으로의 진전
  • AI가 보고, 창조하고, 반복할 수 있는 시스템을 지향
  • 이를 통해 실시간 디자인 도구, 시각적 추론, 인터랙티브 콘텐츠 제작 등 새로운 응용 분야 가능

리소스 및 접근 경로


Read Entire Article