-
Krea 1의 첫 이미지 모델이 FLUX.1 Krea라는 오픈 가중치 버전으로 공개됨
- 기존의 이미지 생성 모델과 달리, 명확한 미적 취향과 포토리얼리즘에 집중해 "AI 같지 않은" 이미지를 목표로 설계됨
-
기존 벤치마크와 평가 지표들이 실제 사용자가 원하는 미적 감각과 어긋난다는 문제를 분석하고, 이를 해결하기 위해 직접 큐레이션한 데이터와 의견 중심의 미학적 편향을 적용함
-
사전학습(pre-training) 과 후학습(post-training) 과정을 구분하여, 다양성을 보장하는 단계와 명확한 스타일로 수렴시키는 단계를 체계적으로 운용함
- 향후에는 개인화·취향 맞춤 연구와, 더 넓은 비주얼 도메인 확장 및 창작자 지원 기능을 강화할 계획임
FLUX.1 Krea 오픈 소스 출시
-
Krea 1은 Black Forest Labs와 공동으로 훈련한 첫 이미지 생성 모델로, 미적 컨트롤과 이미지 품질에서 우수함을 목표로 함
-
FLUX.1 Krea [dev] 는 오픈 가중치로 공개되며, 기존 FLUX.1-dev 생태계와 완벽히 호환됨
- 이 모델은 포토리얼리즘과 미학적 요소를 극대화하며, 특정 미적 취향을 반영해 설계된 opinionated aesthetics 지향임
"AI Look" 현상과 한계
- 기존 AI 생성 이미지는 종종 과도하게 흐릿한 배경, 왁스 같은 피부, 밋밋한 구도 등 이른바 "** AI look**" 현상을 보임
- 벤치마크 최적화와 기술적 지표에 치우치면서, 진짜 같은 질감, 스타일 다양성, 창의적 결과물이 희생되는 문제를 지적함
- 실제 사용자 취향을 반영하지 못하는 기존 평가 모델의 한계
- 사전 훈련 단계에서 사용되는 Fréchet Inception Distance (FID) , CLIP Score는 모델의 전반적 성능을 측정하는 데 유용함
- 학계 및 산업계에서는 DPG, GenEval, T2I-Compbench, GenAI-Bench 등 다양한 벤치마크가 쓰이지만, 주로 프롬프트 부합성과 공간 관계, 속성 결합 등만 평가함
- 미적 평가 모델로 LAION-Aesthetics, Pickscore, ImageReward, HPSv2 등이 있으나, 대부분 CLIP 기반으로 해상도 및 파라미터 수가 제한됨
- 예를 들어 LAION-Aesthetics는 여성, 흐릿한 배경, 밝은 색감 이미지에 치우친 편향을 가짐; 이런 기준으로 데이터 필터링 시 모델에 암묵적 선입견이 심어질 수 있음
- 미학 평가지표와 필터는 나쁜 이미지를 걸러내는 데는 유용하나, 훈련 데이터 선별에 지나치게 의존할 경우 모델 자체에 편향이 각인될 위험이 있음
- 최신 비전 언어 모델 기반의 평가지표가 등장하고 있으나, 미적 취향은 여전히 주관적이므로 단일 수치로 환원하기 어려움
사전학습(Pre-training)과 후학습(Post-training) 구조
-
사전학습(Pre-training)
- 사전학습에서는 스타일, 사물, 인물, 장소 등 시각적 세계에 대한 지식을 폭넓게 습득하여 다양성(mode coverage) 을 극대화함
- "좋지 않은" 데이터도 포함해, 모델이 바람직하지 않은 특성(예: 이상한 손가락, 흐릿함 등)도 학습하게 만듦
- 사전학습이 모델의 최고 품질 한계와 스타일 다양성을 결정
-
후학습(Post-training)
- 후학습에서는 모델 분포를 선호하는 스타일로 집중(mode collapsing) 시켜, "AI look" 대신 명확한 미적 방향성으로 수렴
-
Supervised Finetuning(SFT) 과 RLHF(선호도 기반 강화학습) 의 2단계로 진행
- SFT: 직접 큐레이션한 고품질 데이터셋 및 Krea-1의 합성 이미지 활용
- RLHF: 내부 선호도 데이터를 기반으로 여러 번 최적화해 미학과 스타일을 세밀하게 다듬음
- 데이터 양보다 데이터 품질이 결정적이라는 점을 확인(1M 이하 소량 고품질 데이터로도 충분)
-
의견 중심(opinionated approach) 의 미학 선호도 레이블을 적용, 기존 공개 선호도 데이터만 활용할 경우 단조롭고 AI look으로 회귀하는 문제 방지
모델 파이프라인 및 실험적 인사이트
-
flux-dev-raw라는 12B 파라미터의 guidance-distilled 베이스 모델을 사용, 기존의 과도하게 finetune된 오픈모델과 차별화
- RLHF 단계에서는 TPO(preference optimization) 기법을 적용해 미감과 스타일화 특성을 강화함
- 고품질의 내부 선호 데이터(엄격 필터링)를 여러 번 활용해 모델 출력을 정교하게 보정함
-
주요 발견점
- 1. 데이터의 양보다 질이 더 중요함. 1M 미만의 데이터로도 의미 있는 사후훈련 가능. 양적 다양성은 편향 완화와 안정성에 유효하지만, 가장 중요한 것은 큐레이션된 고품질 데이터임
- 2. 명확한 취향 중심의 데이터 수집이 필요함. 대중적 공개 데이터셋은 의도치 않은 편향과 "AI look" 회귀, 단순구도/색상 편향 등 문제를 유발함
- 텍스트 구현, 해부학, 구조 등 객관적 목표에는 데이터 다양성이 도움이 되지만, 미감 등 주관적 목표에는 혼합보다는 특화된 데이터가 더 효율적임
- 다수의 미감 분포를 섞으면 누구도 만족하지 못하는 결과가 나오며, 많은 사용자가 LoRA 등 후처리 방법에 의존하게 되는 현상도 언급됨
미래 연구 방향 및 마무리
- Krea 1은 미학적 기준과 품질을 중시하는 창작자를 위한 첫걸음이며, 오픈 소스 커뮤니티의 확장을 기대함
- 향후 핵심 역량 강화, 더 다양한 시각 도메인 지원, 개인화·컨트롤러빌리티 연구를 통해 사용자의 미적 취향에 맞는 모델 제공을 목표로 함
- GitHub( https://github.com/krea-ai/flux-krea ) 참고