GenAI 이미지 대결(Showdown)

1 week ago 8

여러 이미지 생성 AI 모델을 동일한 프롬프트로 테스트하여, 정확성·창의성·일관성을 평가한 실험 프로젝트
OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 등 총 14개 모델이 참가함
모든 모델은 인페인팅이나 편집 기능 없이, 주어진 설명만으로 이미지를 생성
각 테스트는 명확한 최소 통과 기준을 두고, 시각적 요소의 충족 여부를 기준으로 성공률을 계산함
결과는 모델 간의 성능 격차를 드러내며, 복잡한 개념 이해나 수학적 구조 생성이 여전히 어려움을 보여줌

실험 개요

엄격한 규칙기반으로 각 모델의 순수 생성 능력을 평가한 비교 벤치마크 실험임
- 인페인팅, 리믹스, 후속 수정 지시 등의 기능은 모두 금지
- 각 모델은 프롬프트당 수십 번의 시도만 허용됨
평가 기준은 정확한 시각적 조건 충족 여부를 중심으로 함

The Prussian Ring Toss
- 프러시아 병사가 서로의 스파이크 헬멧에 고리를 던지는 장면
- 6개 모델 중 5개가 조건 충족, 가장 높은 성공률
Nine-Pointed Star
- 9개의 꼭짓점을 가진 별을 정확히 생성해야 하는 과제
- 대다수 모델이 짝수 형태로 수렴해 실패, 3개만 성공
Spheron
- 알렉산더 대왕이 ‘Hippity Hop’ 장난감을 타고 전투하는 유화 스타일 그림
- 역사적 맥락과 현대적 오브젝트 결합 능력 평가, 4개 모델만 성공
Cubed⁵
- 빨강–파랑–초록–보라–노랑 순서로 투명한 유리 큐브 5개를 수직으로 쌓는 장면
- 5개 모델이 정확히 재현, 세로 비율이 결과 품질에 큰 영향
Cephalopodic Puppet Show
- 문어의 8개 다리 각각에 양말 인형을 씌운 장면
- 개념적 이해가 필요한 테스트로, 절반만 조건 충족