- Qwen VLo는 통합 멀티모달 이해 및 생성 모델로, 이미지 이해뿐 아니라 고품질의 이미지 생성을 제공함
- 사용자는 자연어로 창의적인 명령을 내릴 수 있으며, 스타일 변환, 배경 변경 등 다양한 이미지를 직접 생성 및 편집 가능함
-
여러 언어를 지원하여 전 세계 사용자가 언어 장벽 없이 손쉽게 이용 가능함
- 이미지를 계속적으로 개선 및 최적화하는 점진적 생성 방식을 채택하여, 향상된 시각적 품질과 높은 제어성을 제공함
- 아직 미리보기 단계로 일부 기능의 불안정성이 있을 수 있지만, 지속적 개선 중임
소개
- 멀티모달 대형 모델의 발전은 기술의 한계를 끊임없이 확장하는 중임
- QwenVL에서 시작해 Qwen2.5 VL까지 이미지 콘텐츠 이해를 강화해왔으며, 이제 Qwen VLo는 이해와 생성 모두를 아우르는 새로운 멀티모달 모델로 등장함
- Qwen VLo는 세상을 "이해"하는 데서 나아가, 그 이해를 바탕으로 디테일한 이미지 "생성"까지 할 수 있음
- 이 모델은 지각과 창조의 경계를 실질적으로 연결함
- 현재는 프리뷰 버전으로 Qwen Chat에서 사용 가능하며, "귀여운 고양이 그림 생성" 같은 명령으로 이미지를 만들 수 있고, 이미지 업로드 후 "고양이에 모자 씌우기"와 같은 수정도 수행 가능함.
창의적 생성 과정
- Qwen VLo의 이미지 생성을 시연하는 영상에서 볼 수 있듯, 이 모델은 진행적 생성 방법을 사용함
- 좌상단에서 우하단 방향으로 이미지를 점진적으로 구축하며, 계속해서 예측을 고도화하여 일관되고 조화로운 결과를 달성함
- 이 생성 메커니즘은 시각적 품질을 높이고, 사용자가 창의적 과정을 더 유연하고 세밀하게 제어하도록 도움을 줌.
이해력에서 창조성으로: 향상된 멀티모달 생성 역량
Qwen VLo의 주요 강화점
-
정밀한 콘텐츠 이해 및 재현
- 기존 멀티모달 모델은 생성 과정에서 의미 불일치(예: 자동차를 오인식하거나 구조를 잃는 현상)가 있었음
- Qwen VLo는 디테일 포착 능력이 커졌으며, 높은 의미 일치성을 유지함
- 예를 들어, 자동차 사진에 색상 변경을 요청하면 실제 차종과 구조는 유지하면서 자연스럽게 색상만 바꿔 현실감 있는 결과를 만듦
-
오픈엔디드 명령 기반 편집 지원
- 사용자는 "이 그림을 Van Gogh 스타일로", "19세기 사진처럼", "맑은 하늘 추가"와 같은 자유로운 창의적 명령을 자연어로 입력 가능함
- 스타일 변환, 장면 재구성, 세부 수정은 물론, 딥러닝 전통 비전 작업인 깊이맵, 세그멘테이션, 엣지 추정까지 단순 명령으로 가능함
- 복합 명령(예: 오브젝트 수정+텍스트 편집+배경 변경)도 한 번에 수행 가능함
-
다국어 명령 지원
- Qwen VLo는 중국어, 영어 등 다양한 언어의 조작을 지원함
- 언어 장벽 없이 전 세계적 사용 편의성 제공
데모 활용 사례
Qwen VLo는 인간 아티스트처럼 이해력을 바탕으로 상상을 실현함. 배경 교체, 피사체 추가, 스타일 전환, 오픈엔디드 명령 기반 대규모 편집 및 탐지/분할 대응이 가능함.
특히, 이해 기반 재생성 기능으로 만화→실사, 특정 인물→풍선과 같이 폭 넓은 창작 스타일 변환을 지원함.
- 모델의 고도화된 이미지 및 명령 해독력으로 복합적 커맨드를 한 번에 수행, 예를 들어 포스터 제작, 여러 오브젝트 결합 등 여러 단계 작업을 한 번에 완수함
또한, Qwen VLo는 탐지, 분할, 엣지 디텍션 등 기존 정보에 주석/표식 기능도 지원함.
- 다중 이미지 입력 처리 기능도 준비 중(향후 공식 출시 예정)
- 텍스트+이미지 입력뿐 아니라 텍스트→이미지 생성(일반 이미지, 중영혼합 포스터 등)도 지원함
- 매우 긴 가로/세로 비율 포맷(최대 4:1, 1:3 등) 이미지 생성 지원(공식 출시 예정)
- 모델이 직접 생성한 이미지를 다시 이해/분석해 강아지·고양이 품종 판별 등도 가능함
사용 방법
Qwen VLo는 동적 해상도 학습 및 생성으로, 입력·출력 이미지 해상도 및 비율을 자유롭게 사용할 수 있음. 고정 포맷에서 벗어나 원하는 사이즈 이미지(포스터, 일러스트, 웹배너, SNS커버 등) 제작 가능함.
- 생성 메커니즘: 좌상→우하 진행적 생성(Progressive generation)
- 긴 텍스트가 포함된 광고·만화 패널 등 세밀 제어가 필요한 작업에서 과정 실시간 미조정 가능함
한계
Qwen VLo는 프리뷰 단계로, 몇 가지 부족함이 있음. 생성 도중 정확성 부족, 원본 불일치, 명령 미준수, 이미지 이해 불안정성 등이 발생할 수 있음. 지속적 개선 및 안정화 업데이트 중임.
다음 단계
- 멀티모달 대형 모델이 양방향 텍스트-비전 입출력을 지니게 되면서, 새로운 표현·상호작용 방식이 열리고 있음
- 앞으로 모델들은 텍스트 답변뿐 아니라 다이어그램, 보조선, 강조 표시 등 시각적 콘텐츠로 아이디어를 전달할 수 있게 될 것임.
- 발전된 생성 기능은 모델 자체의 이해도 검증 및 개선에도 활용될 것임
- 예를 들어, 세그멘테이션맵, 디텍션맵 등 중간 결과를 직접 생성하며 자신의 이해를 증명·보완 가능함
- 이러한 연구 방향을 지속적으로 탐구 중