모두가 Gemini 2.5 Flash Image / Nano Banana를 과소평가하고 있음 이런 비교는 벤치마크 차트보다 훨씬 실용적임 2022년에 기준을 세운 입장에서 보면, 지금의 데모들은 SD1·2·3 시절과 비교할 수 없을 정도로 놀라움 프롬프트나 시도 횟수를 바꾸고, 가장 마음에 드는 결과만 보여주는 방식은 테스트의 객관성을 희석시킴 내가 Replicate 블로그에 올린 글에서는 여러 모델을 직접 비교했음 비교 자체는 흥미로웠지만, 마지막 기린 이미지는 단순히 몸이 구부러졌을 뿐 짧아지지 않았음 최근에는 AI 이미지 생성을 거의 안 함 Reve도 테스트에 포함되면 좋겠다고 생각함 시도는 좋았지만, “그림 속 탑이 오른쪽으로 기울어져 있다” 같은 잘못된 프롬프트는 오히려 모델이 더 기울게 만듦 전체적으로 재미있는 테스트였음Hacker News 의견
다른 모델보다 훨씬 강력하면서도 이미지당 가격은 동일하고, 텍스트 인코더 덕분에 훨씬 복잡하고 미묘한 프롬프트를 처리할 수 있음
내가 만든 gemimg Python 패키지로 예시를 공개했고, 더 다양한 사례를 담은 블로그 글도 준비 중임
Google의 AI Studio에서는 비율 제어까지 가능한 무료 생성도 지원함
다만 Seedream 4.0이 이번 테스트에서 이긴 건 의외였음
ChatGPT 내장 기능이나 Ghibli 스타일 유행을 제외하면, 가장 잘 알려진 이미지 편집 모델 중 하나라고 생각함
내 용도에는 큰 문제는 아니지만, 색감 일관성이 중요한 사람에게는 Nano Banana가 더 나을 수 있음
저작권 경계선에 있는 요청도 아니었는데 이런 오류가 잦음
그래도 성공할 때는 결과가 매우 인상적임
두 번째 시도에서는 먼저 이미지 분석으로 지저분한 물건 목록을 뽑고, 그다음 프롬프트로 제거하니 훨씬 나은 결과가 나왔음
결국 프롬프트 엔지니어링의 중요성을 다시 느꼈음
Flux가 놀라울 정도로 좋지만, 대부분의 사람(나 포함)은 결국 ChatGPT나 Gemini처럼 익숙한 모델을 기본으로 쓰게 됨
Nano Banana를 자주 쓰는데, 외부 건축물이나 조경 편집에는 약함
보도, 배수로, 색상 매칭 같은 건 거의 불가능에 가까움
Nano Banana도 경계 처리가 부정확해서 사진이 어긋남
이제 모델들이 프롬프트와 이미지를 실제로 이해하는 시대가 온 것 같음
엔지니어링이 계속 발전하면서 창의성이 폭발적으로 확장되는 시기임
모든 모델에 동일한 프롬프트와 시드로 5회 생성 같은 통일된 조건이 필요함
예를 들어 Gemini 2.5 Flash는 “Girl with Pearl Earring” 테스트에서 과도한 자유도를 부여받았고,
반면 OpenAI gpt-image-1은 더 적은 시도로 훨씬 나은 결과를 냈음에도 실패로 처리됨
그중 Qwen Image Edit가 가장 저렴하고 빠르면서도 대부분의 편집 작업을 잘 처리했음
이미지 편집 앱을 만든다면 이 모델을 선택할 것 같음
그래도 Gemini 결과를 자주 선택하게 됐고, pass/fail 대신 10점 척도 평가가 있었으면 좋겠음
그런 전시가 실제로 있다면 꼭 가보고 싶음
1년 반 전쯤엔 로컬에서 직접 모델을 돌리는 게 유행이었지만, 지금은 대부분 클라우드 기반으로 옮겨감
그래도 현실 사진 편집에서는 여전히 어딘가 부자연스러운 질감이 느껴짐
예를 들어 사람 머리카락이 과하게 윤기 나거나, 나무가 플라스틱처럼 보임
Flux Kontext를 로컬에서 돌릴 수는 있지만, 양자화된 모델로 느리게 생성해야 해서 비효율적임
게다가 ChatGPT에서 무료로 이미지를 만들 수 있으니 굳이 로컬을 고집할 이유가 줄었음
머리카락 테스트에서는 Gemini 2.5 Flash만이 색감과 질감을 제대로 맞췄고,
Seedream 4는 전체 색보정이 바뀌는 문제가 있어서 선호하지 않음
캐릭터가 들고 있던 물체를 제거하고, 시선을 카메라로 돌리며, 자세까지 자연스럽게 조정했음
게다가 4개의 결과 모두 사용 가능할 정도로 품질이 높았음
이후 Reve의 모델 소개 글을 읽고 바로 가입을 결심했음
모델별로 프롬프트를 조정하기 때문에 시도 횟수가 달라졌던 것임
프롬프트가 완벽하지 않다는 지적도 있지만, 오히려 일반 사용자가 입력할 법한 수준이라 현실적임
FAQ에 설명된 것처럼, 모델이 특정 단어에 갇히지 않도록 여러 버전의 프롬프트를 시도함
예를 들어 “Turn on the lights” 같은 명령형 문장은 단순한 지시가 아니라,
멀티모달 LLM의 이해력을 시험하기 위한 프롬프트임
이런 문장은 SDXL 같은 전통 모델에서는 절대 통하지 않음

1 week ago
5







![닷컴 버블의 교훈[김학균의 투자레슨]](https://www.edaily.co.kr/profile_edaily_512.png)

English (US) ·