Qwen-Image-2.0: 전문가 수준의 인포그래픽, 정교한 포토리얼리즘

1 month ago 18

차세대 이미지 생성 모델로, 텍스트와 이미지 생성·편집을 통합한 단일 구조를 구현
1k 토큰 지시어를 지원해 PPT, 포스터, 만화 등 복잡한 인포그래픽을 직접 생성
2K 해상도 기반의 세밀한 사실적 묘사와 정확한 문자 렌더링을 동시에 실현
모델 경량화로 추론 속도를 높이고, 텍스트-이미지·이미지-이미지 벤치마크 모두에서 우수 성능을 기록
정밀함(准), 복잡성(多), 미학(美), 사실성(真), 정렬성(齐) 등 다섯 가지 핵심 특성으로 전문적 시각 콘텐츠 제작 효율을 극대화

Qwen-Image-2.0 개요

Qwen-Image-2.0은 차세대 이미지 생성 기반 모델로, 텍스트 렌더링과 이미지 편집을 통합한 단일 구조를 채택
- 1k 토큰 지시어를 처리해 PPT, 포스터, 만화 등 전문 인포그래픽을 직접 생성
- 2K 해상도로 인물, 자연, 건축 등 세밀한 사실적 장면을 표현
- 텍스트 이해와 생성 통합으로 이미지 생성과 편집을 하나의 모드에서 수행
- 경량화된 모델 구조로 빠른 추론 속도 확보
AI Arena 블라인드 테스트에서 텍스트-이미지 및 이미지-이미지 과제 모두에서 우수 성능을 기록

모델 발전 과정

Qwen-Image 시리즈는 생성 트랙과 편집 트랙을 병행 발전시켜 왔음
- 2025년 8월 Qwen-Image는 텍스트 렌더링 정밀도를 강화
- 2025년 12월 Qwen-Image-2512는 디테일과 포토리얼리즘 향상
- 편집 트랙에서는 단일 이미지 편집(8월) → 다중 이미지 편집(9월) → 일관성 개선(12월)로 확장
Qwen-Image-2.0은 두 트랙을 하나의 통합 모델로 결합, 생성과 편집 모두에서 탁월한 결과를 달성

정밀함(准)과 복잡성(多)

모델은 복잡한 ‘그림 속 그림’ 구성을 정확히 구현해 PPT 제작 효율을 높임
- 예시로, 동일 인물의 두 이미지를 상하 배치한 복합 장면을 시각적 일관성 유지하며 생성
1k 토큰 지시어를 통해 다단 구조의 인포그래픽(예: A/B 테스트 보고서)을 완전하게 렌더링
- 표, 그래프, 수치, 주석 등 복합 요소를 포함한 전문 보고서 수준의 시각 자료 생성 가능
LLM의 세계 지식을 활용해 간단한 요청을 자동으로 상세 묘사 프롬프트로 확장 가능
- 예: “杭州 두일 여행 포스터” 요청을 세밀한 양식·배경·문자 구성으로 변환

미학(美)

텍스트와 이미지의 조형적 조화를 구현
- 시화일체 구도의 중국 전통 서화 스타일을 정확히 재현
- 다양한 서체(예: 瘦金体, 소자체)를 정밀하게 표현
예시로, 송대 시문을 포함한 수묵화나 왕희지의 「兰亭序」를 소자체로 거의 완벽히 재현

사실성(真)

광학적 반사, 재질, 원근감을 정밀하게 표현해 현실감 강화
- 예: 유리 화이트보드, 의류, 잡지 표지 등 서로 다른 재질 위의 텍스트를 정확히 렌더링
영화 포스터 수준의 조명·질감·재질 통합 표현을 구현
- 예: 「千灯问心」 포스터에서 금속, 비, 천 질감이 자연스럽게 융합

정렬성(齐)

캘린더, 만화, 인포그래픽 등 다중 텍스트 구조에서 정렬과 배치를 자동 조정
- 예: 2026년 2월 달력의 날짜·음력·주석을 정확히 격자 내 정렬
- 만화의 말풍선 텍스트를 중앙 정렬해 자연스러운 대화 흐름 구현
- OKR 인포그래픽에서 텍스트 블록과 화살표를 자동 정렬 및 색상 구분

포토리얼리즘 강화

23가지 이상의 녹색 계열을 구분해 여름 숲의 생태적 사실성을 표현
- 잎의 질감, 반사광, 습도, 공기 중 입자까지 세밀히 묘사
인체와 동물의 근육, 표정, 질감을 정밀하게 재현
- 예: 말이 사람을 밟는 장면에서 근육 긴장, 피부 질감, 먼지 입자까지 표현

이미지 편집 기능

생성과 편집을 통합한 Omni 모델로, 생성 측의 개선이 편집에도 직접 반영
- 기존 이미지 위에 시·문자 삽입 가능
- 두 이미지의 인물 합성, 자연스러운 조명·그림자 일치 유지
- 실사 사진과 카툰 캐릭터의 혼합 편집도 가능
예: 두 인물의 합성 사진, 도시 사진 위에 캐릭터 삽입 등에서 자연스러운 통합 결과 제공

블로그 헤더 이미지 “Qwen Street”

베이징 겨울 거리 풍경을 배경으로, 두 상점이 Qwen-Image-2.0의 핵심 기능을 상징
- 왼쪽 서예점 간판: “文字渲染”, 내부에 “专业幻灯片中英文海报高级信息图”
- 오른쪽 꽃집 간판: “真实质感”, 문 위 표식 “2k resolution”
- 중앙 눈사람이 들고 있는 칠판: “Qwen-Image-2.0 正式发布”
- 거리에는 “更小模型，更快速度” 문구가 적힌 배달 라이더 등장

결론

Qwen-Image-2.0은 정밀함·복잡성·미학·사실성·정렬성을 모두 갖춘 통합 이미지 생성 모델
텍스트와 이미지의 경계를 허물며, 전문 인포그래픽·시각 콘텐츠 제작의 자동화 수준을 크게 향상
연구나 창작에 활용 시, Qwen-Image Technical Report (arXiv:2508.02324) 인용 권장

Read Entire Article