생성형 AI 이미지 편집 대결

1 week ago 5

Hacker News 의견

모두가 Gemini 2.5 Flash Image / Nano Banana를 과소평가하고 있음
다른 모델보다 훨씬 강력하면서도 이미지당 가격은 동일하고, 텍스트 인코더 덕분에 훨씬 복잡하고 미묘한 프롬프트를 처리할 수 있음
내가 만든 gemimg Python 패키지로 예시를 공개했고, 더 다양한 사례를 담은 블로그 글도 준비 중임
Google의 AI Studio에서는 비율 제어까지 가능한 무료 생성도 지원함
다만 Seedream 4.0이 이번 테스트에서 이긴 건 의외였음
- 사실 Nano Banana는 출시 당시 꽤 바이럴을 탔음
  ChatGPT 내장 기능이나 Ghibli 스타일 유행을 제외하면, 가장 잘 알려진 이미지 편집 모델 중 하나라고 생각함
- Seedream이 프롬프트 충실도 면에서는 우세했지만, 약간의 색상 그라데이션 변화를 일으키는 경향이 있음
  내 용도에는 큰 문제는 아니지만, 색감 일관성이 중요한 사람에게는 Nano Banana가 더 나을 수 있음
- Nano Banana를 사용할 때 절반 정도는 AI Studio가 이유 없이 실패했다고 나옴
  저작권 경계선에 있는 요청도 아니었는데 이런 오류가 잦음
  그래도 성공할 때는 결과가 매우 인상적임
- 내 지저분한 부엌 사진을 정리하려고 Nano Banana를 썼는데 처음엔 완전히 실패했음
  두 번째 시도에서는 먼저 이미지 분석으로 지저분한 물건 목록을 뽑고, 그다음 프롬프트로 제거하니 훨씬 나은 결과가 나왔음
  결국 프롬프트 엔지니어링의 중요성을 다시 느꼈음
- Gemini는 잘 작동할 때는 훌륭하지만, 가끔은 완전히 엉뚱한 결과를 내고 어떤 프롬프트를 써도 맞지 않음
  Flux가 놀라울 정도로 좋지만, 대부분의 사람(나 포함)은 결국 ChatGPT나 Gemini처럼 익숙한 모델을 기본으로 쓰게 됨
이런 비교는 벤치마크 차트보다 훨씬 실용적임
Nano Banana를 자주 쓰는데, 외부 건축물이나 조경 편집에는 약함
보도, 배수로, 색상 매칭 같은 건 거의 불가능에 가까움
- 나는 Qwen Image Edit로 낮 사진을 밤으로 바꾸는 실험을 하는데, 대부분의 모델이 엣지 정렬을 놓침
  Nano Banana도 경계 처리가 부정확해서 사진이 어긋남
2022년에 기준을 세운 입장에서 보면, 지금의 데모들은 SD1·2·3 시절과 비교할 수 없을 정도로 놀라움
이제 모델들이 프롬프트와 이미지를 실제로 이해하는 시대가 온 것 같음
엔지니어링이 계속 발전하면서 창의성이 폭발적으로 확장되는 시기임
프롬프트나 시도 횟수를 바꾸고, 가장 마음에 드는 결과만 보여주는 방식은 테스트의 객관성을 희석시킴
모든 모델에 동일한 프롬프트와 시드로 5회 생성 같은 통일된 조건이 필요함
예를 들어 Gemini 2.5 Flash는 “Girl with Pearl Earring” 테스트에서 과도한 자유도를 부여받았고,
반면 OpenAI gpt-image-1은 더 적은 시도로 훨씬 나은 결과를 냈음에도 실패로 처리됨
- 참고로 gpt-image-1 예시는 “You Only Move Twice” 테스트용이었음
- 차라리 “최악의 이미지” 대회를 열면, 어떤 모델이 덜 답답한지 더 명확히 드러날 것 같음
내가 Replicate 블로그에 올린 글에서는 여러 모델을 직접 비교했음
그중 Qwen Image Edit가 가장 저렴하고 빠르면서도 대부분의 편집 작업을 잘 처리했음
이미지 편집 앱을 만든다면 이 모델을 선택할 것 같음
비교 자체는 흥미로웠지만, 마지막 기린 이미지는 단순히 몸이 구부러졌을 뿐 짧아지지 않았음
그래도 Gemini 결과를 자주 선택하게 됐고, pass/fail 대신 10점 척도 평가가 있었으면 좋겠음
- “어색하게 구부러진 기린”이라는 표현이 너무 웃겼음
  그런 전시가 실제로 있다면 꼭 가보고 싶음
최근에는 AI 이미지 생성을 거의 안 함
1년 반 전쯤엔 로컬에서 직접 모델을 돌리는 게 유행이었지만, 지금은 대부분 클라우드 기반으로 옮겨감
그래도 현실 사진 편집에서는 여전히 어딘가 부자연스러운 질감이 느껴짐
예를 들어 사람 머리카락이 과하게 윤기 나거나, 나무가 플라스틱처럼 보임
- 이미지 모델의 크기와 연산 요구량이 너무 커져서 개인이 셀프 호스팅하기 어려워졌음
  Flux Kontext를 로컬에서 돌릴 수는 있지만, 양자화된 모델로 느리게 생성해야 해서 비효율적임
  게다가 ChatGPT에서 무료로 이미지를 만들 수 있으니 굳이 로컬을 고집할 이유가 줄었음
  머리카락 테스트에서는 Gemini 2.5 Flash만이 색감과 질감을 제대로 맞췄고,
  Seedream 4는 전체 색보정이 바뀌는 문제가 있어서 선호하지 않음
Reve도 테스트에 포함되면 좋겠다고 생각함
- Nano Banana로는 캐릭터의 시선 변경이 잘 안 됐는데, Reve는 첫 시도에 완벽한 결과를 냈음
  캐릭터가 들고 있던 물체를 제거하고, 시선을 카메라로 돌리며, 자세까지 자연스럽게 조정했음
  게다가 4개의 결과 모두 사용 가능할 정도로 품질이 높았음
  이후 Reve의 모델 소개 글을 읽고 바로 가입을 결심했음
- 추천 고마움, 나중에 테스트 목록에 추가해볼 예정임
- 좋은 팁 감사함
시도는 좋았지만, “그림 속 탑이 오른쪽으로 기울어져 있다” 같은 잘못된 프롬프트는 오히려 모델이 더 기울게 만듦
- 그 문장은 실제 입력 프롬프트가 아니라 시작용 문장이었음
  모델별로 프롬프트를 조정하기 때문에 시도 횟수가 달라졌던 것임
전체적으로 재미있는 테스트였음
프롬프트가 완벽하지 않다는 지적도 있지만, 오히려 일반 사용자가 입력할 법한 수준이라 현실적임
- 나는 SD 1.5 시절부터 프롬프트를 다뤄왔기 때문에 모델별로 필요한 프롬프트 변형을 잘 알고 있음
  FAQ에 설명된 것처럼, 모델이 특정 단어에 갇히지 않도록 여러 버전의 프롬프트를 시도함
  예를 들어 “Turn on the lights” 같은 명령형 문장은 단순한 지시가 아니라,
  멀티모달 LLM의 이해력을 시험하기 위한 프롬프트임
  이런 문장은 SDXL 같은 전통 모델에서는 절대 통하지 않음

Read Entire Article

생성형 AI 이미지 편집 대결

Hacker News 의견

Related

AI 시스템 평가 방식의 약점을 밝힌 연구

Show GN: 코드 배틀 게임 입니다

Ask GN: Home 로컬 LLM 머신 구성 경험 공유

심장병으로 죽지 마세요

Valdi – 네이티브 성능을 제공하는 크로스플랫폼 UI 프레임워크

시카고를 이해하길 바란다

DevTUI - 개발자를 위한 스위스 칼

OpenMW 0.50.0 출시 – 오픈소스 Morrowind 재구현 프로젝트

Tips

게임 정보

취업 정보

온라인 툴

유용한 정보

유튜브

Popular

'다지니' 김우빈 "문동은, 내가 더 하고 싶어서 작가님께 전화⋯송혜교 반응은 몰...

'5연속 버디' 이정환, DP 월드투어 제네시스 챔피언십 역전 우승

'싱어게인4', 클립 누적 조회수 1700만 뷰⋯현장 관객 모집 시작

'위대한 가이드 2.5' 최다니엘 "김대호 배려심 있어, 진가 느꼈다"

'1박2일'·서경덕 교수, '독도의 날' 맞아 독도 특집편 방영

'물어보살' 김송, '시니어 모델' 쌍둥이 첫 공개 "호화생활에...

Zoxide - 모든 주요 셸을 지원하는 더 똑똑한 cd 명령어

'마리와 별난 아빠들' 박은혜 "금보라와 '대장금' 이후 20여...

닷컴 버블의 교훈[김학균의 투자레슨]

'죽고 싶지만 떡볶이는 먹고 싶어' 백세희 작가, 5명 살리고 별세...향년 35세