- Black Forest Labs의 FLUX.1 Kontext는 텍스트와 이미지를 동시에 입력해 맥락을 이해하고, 기존 이미지의 특징과 스타일을 유지하며 즉시 수정·생성이 가능한 최신 생성형 AI 모델
- 기존 텍스트-이미지 생성 알고리듬 대비, 문자·객체 일관성과 로컬 편집, 스타일 참조, 고속 응답 등에서 우수한 성능을 보임
- 사용자는 텍스트만 입력하거나, 이미지와 텍스트를 조합해 특정 영역만 변경, 스타일만 적용, 다단계 편집 등 다양한 상호작용적 이미지 작업이 가능함
-
FLUX.1 Kontext [pro] 는 여러 번의 편집에도 이미지 일관성을 유지하며, 업계 최고 속도로 작동함
- 오픈 소스 모델 [dev] 버전은 경량화된 12B 디퓨전 트랜스포머로, 연구 및 커스터마이징 목적의 프라이빗 베타로 공개됨
FLUX.1 Kontext 소개
-
FLUX.1 Kontext는 텍스트만으로 이미지를 생성하는 기존 모델의 한계를 넘어서, 텍스트와 이미지를 함께 입력해 맥락 기반의 이미지 생성과 편집이 가능한 생성형 플로우 매칭 모델임
- 텍스트 프롬프트와 이미지를 동시에 활용하여, 이미지의 특정 요소를 제거/추가/변경하고, 스타일이나 특징을 유지한 채 새로운 장면을 생성할 수 있음
주요 기능
-
캐릭터 일관성: 동일 인물, 객체, 스타일이 다양한 장면과 환경에서도 일관되게 유지됨
-
로컬 편집: 이미지의 특정 부분만 텍스트 명령으로 수정할 수 있음(예: 얼굴의 특정 요소만 제거, 글자만 변경 등)
-
스타일 참조: 참조 이미지의 독특한 스타일을 새로운 장면에 적용 가능
-
인터랙티브 속도: 기존 모델 대비 최대 8배 빠른 추론 속도로 실시간 편집 및 생성 지원
텍스트-이미지 및 이미지-이미지 편집의 통합
-
FLUX.1 Kontext는 한 번의 편집뿐 아니라, 여러 단계에 걸친 반복적 지시에도 이미지 품질과 특징을 유지함
- 프롬프트와 이전 이미지 결과를 연속적으로 활용해, 한 단계씩 원하는 결과에 도달할 수 있음
FLUX.1 Kontext 모델 라인업
-
FLUX.1 Kontext [pro]
- 빠른 반복 편집 및 생성에 특화된 플래그십 모델
- 텍스트와 참조 이미지를 동시에 입력받아, 타겟 영역 편집과 복잡한 장면 변환을 빠르고 일관성 있게 수행함
-
FLUX.1 Kontext [max]
- 실험적 최고 사양 모델로, 프롬프트 이해력과 타이포그래피, 고속 일관성 편집 능력이 향상됨
-
FLUX.1 Kontext [dev]
- 연구 및 커스터마이징 목적의 경량화(12B) 모델, 프라이빗 베타로 공개됨
- 공개 시 FAL, Replicate, Runware, DataCrunch, TogetherAI, HuggingFace 등 주요 AI 인프라 파트너를 통해 제공 예정
지원 및 접근
- FLUX.1 Kontext 시리즈는 KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI 등 다양한 서비스와 FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg 등의 인프라에서 사용할 수 있음
- 실시간 체험 및 데모를 위한 FLUX Playground(https://playground.bfl.ai/)를 통해, 별도의 통합 없이 손쉽게 모델 성능을 검증하고 결과를 확인할 수 있음
성능 평가
- 자체 벤치마크 KontextBench에서 6가지 이미지 생성·편집 과제별로 SOTA 모델들과 비교 평가
-
텍스트 편집, 캐릭터 보존 분야에서 업계 최고 수준의 점수를 기록함
-
추론 속도 역시 기존 최고 성능 모델 대비 압도적으로 낮은 레이턴시 달성
- 미적 완성도, 프롬프트 이해력, 타이포그래피, 사실성 등 다양한 기준에서도 경쟁력 입증
한계점 및 향후 과제
- 다단계(6번 이상) 반복 편집 시 시각적 노이즈(artifact) 가 발생해 이미지 품질이 저하될 수 있음
- 간혹 특정 프롬프트의 세부 지시를 정확히 따르지 못하는 사례가 있음
- 세계지식 및 문맥 이해력에 한계가 있어 맥락적으로 부정확한 이미지를 생성할 수 있음
- 모델 경량화 및 distillation 과정에서 이미지 품질이 떨어질 수 있음