- 여러 이미지 생성 AI 모델을 동일한 프롬프트로 테스트하여, 정확성·창의성·일관성을 평가한 실험 프로젝트
- OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 등 총 14개 모델이 참가함
- 모든 모델은 인페인팅이나 편집 기능 없이, 주어진 설명만으로 이미지를 생성
- 각 테스트는 명확한 최소 통과 기준을 두고, 시각적 요소의 충족 여부를 기준으로 성공률을 계산함
- 결과는 모델 간의 성능 격차를 드러내며, 복잡한 개념 이해나 수학적 구조 생성이 여전히 어려움을 보여줌
실험 개요
-
엄격한 규칙기반으로 각 모델의 순수 생성 능력을 평가한 비교 벤치마크 실험임
- 인페인팅, 리믹스, 후속 수정 지시 등의 기능은 모두 금지
- 각 모델은 프롬프트당 수십 번의 시도만 허용됨
- 평가 기준은 정확한 시각적 조건 충족 여부를 중심으로 함
주요 테스트 결과
-
The Prussian Ring Toss
- 프러시아 병사가 서로의 스파이크 헬멧에 고리를 던지는 장면
- 6개 모델 중 5개가 조건 충족, 가장 높은 성공률
-
Nine-Pointed Star
- 9개의 꼭짓점을 가진 별을 정확히 생성해야 하는 과제
- 대다수 모델이 짝수 형태로 수렴해 실패, 3개만 성공
-
Spheron
- 알렉산더 대왕이 ‘Hippity Hop’ 장난감을 타고 전투하는 유화 스타일 그림
- 역사적 맥락과 현대적 오브젝트 결합 능력 평가, 4개 모델만 성공
-
Cubed⁵
- 빨강–파랑–초록–보라–노랑 순서로 투명한 유리 큐브 5개를 수직으로 쌓는 장면
- 5개 모델이 정확히 재현, 세로 비율이 결과 품질에 큰 영향
-
Cephalopodic Puppet Show
- 문어의 8개 다리 각각에 양말 인형을 씌운 장면
- 개념적 이해가 필요한 테스트로, 절반만 조건 충족
추가 테스트 사례
-
Quantum Entangled Einstein: 아인슈타인과 양자역학 관련 아이디어 전구 묘사 → 3/6 성공
-
The Yarrctic Circle: 얼음으로 된 의족을 단 북극 해적 이미지 → 6/6 전원 성공
-
The Labyrinth: 입구·출구·경로가 명확한 2D 미로 생성 → 1/6 성공
-
A Dicey Situation: 20면체 주사위(D20)에 소수만 새겨진 면 구현 → 0/6 전원 실패
분석 및 시사점
- 단순한 시각적 스타일보다 논리적 구조와 규칙 기반 묘사에서 오류가 빈번함
- 특히 텍스트·숫자·대칭 구조·색 순서 등 정밀한 조건이 있는 프롬프트에서 실패율이 높음
- 반대로 감정적이거나 상상력이 요구되는 서사형 프롬프트에서는 비교적 높은 일관성을 보임
- 전반적으로, GenAI 모델들은 여전히 복합 개념 이해와 구조적 재현력의 한계를 드러냄
요약
- 이번 실험은 텍스트-투-이미지 모델 간의 ‘진짜 이해력’ 을 가늠하게 하는 흥미로운 시도임
- Midjourney와 OpenAI 4o 등 최신 모델도 일부 논리적 장면에서는 완벽히 실패
- 결과는 “텍스트를 이해하는 것”과 “그 의미를 정확히 시각화하는 것”은 다른 문제임을 보여줌
- 향후 모델 발전의 핵심 과제는 언어적 맥락과 시각적 구조 간의 정합성 개선으로 보임