Gemini 2.5 Flash Image - 최신 이미지 생성 및 편집 모델 공개

1 day ago 2

Google이 Nano-Banana로 알려진, 이미지 생성·편집 능력이 한층 강화된 Gemini 2.5 Flash Image를 공개
캐릭터 일관성 유지, 자연어 기반 부분 편집, 세계 지식 활용, 다중 이미지 결합 등을 지원함
개발자는 Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai 등을 통해 모델을 바로 사용할 수 있음
가격은 100만 출력 토큰당 30달러, 이미지 한 장당 약 0.039달러
모든 결과물은 보이지 않는 디지털 SynthID 워터마크가 삽입됨

Gemini 2.5 Flash Image 소개

Google은 차세대 이미지 생성 및 편집 모델인 Gemini 2.5 Flash Image(코드명 nano-banana)를 발표함
이번 업데이트로 여러 이미지를 하나로 합성, 특정 인물이나 객체의 일관성 유지, 자연어를 활용한 세밀한 변형, 그리고 Gemini의 세계 지식을 바탕으로 한 이미지 생성 및 편집 기능이 가능해짐
초기 버전인 Gemini 2.0 Flash에서도 낮은 지연시간, 비용 효율성, 사용 용이성이 장점이었으나, 사용자의 피드백을 반영하여 이번에 더 높은 품질의 이미지와 강화된 창의적 제어 기능이 추가됨
현재 Gemini API, Google AI Studio, Vertex AI 등에서 사용 가능하며, 과금은 100만 출력 토큰당 $30로 책정됨(이미지 1개 당 약 $0.039)
기타 입·출력 방식도 Gemini 2.5 Flash와 동일한 가격 정책을 따름
공식 사이트 https://deepmind.google/models/gemini/image/

주요 기능과 시나리오

Google AI Studio의 “Build Mode” 업그레이드
- Gemini 2.5 Flash Image로 앱 개발이 더 간편해짐
- 개발자는 사용자 정의 AI 앱을 빠르게 제작, 테스트, 리믹스 가능하며, Google AI Studio에서 직접 배포하거나 코드를 GitHub에 저장할 수 있음
- 예를 들어 “사용자가 이미지를 업로드하고 필터를 적용할 수 있는 이미지 편집 앱 제작”과 같은 프롬프트로 간단하게 앱을 만들 수 있음
- 기본 제공 템플릿 선택/리믹스 기능도 무료로 제공됨
캐릭터 일관성 유지
- 이미지 생성 과정에서 동일한 캐릭터의 외형 유지가 큰 도전 과제였음
- Gemini 2.5 Flash Image는 같은 인물을 다양한 환경에 배치하거나, 제품을 여러 각도/장소에서 표현, 브랜드 자산 일관성 확보 등에 효과적으로 활용 가능함
- Google AI Studio 템플릿 앱을 통해 캐릭터 일관성 시연 및 코드 커스터마이즈가 쉬움
- 이 기능은 부동산 카드, 직원 배지, 대량 상품 목업 등 템플릿 기반 디자인 일관성 확보에도 응용될 수 있음
자연어 프롬프트 기반 이미지 편집
- 사용자는 자연어 지시만으로 이미지 일부를 변형할 수 있음
- 예시로는 배경 블러, 티셔츠 얼룩 지우기, 인물 삭제, 포즈 변경, 흑백 이미지를 컬러 이미지로 변환 등이 있음
- UI/프롬프트 기반 편집이 가능한 템플릿 앱이 제공되어 실제 적용 경험이 가능함
세계 지식 기반 네이티브 활용
- 기존 모델이 미적인 이미지 생성에 강점이 있었던 반면, 현실 세계에 대한 의미론적 이해는 약했음
- Gemini 2.5 Flash Image는 세계 지식을 기반으로, 손으로 그린 다이어그램 인식, 실제 세계 질문 대응, 복잡한 편집 명령 수행 등이 가능함
- 직접 적용 예시로, 간단한 캔버스를 상호작용 교육 튜터로 변환하는 앱이 제공됨
멀티 이미지 융합
- 이 모델은 여러 이미지를 이해하고 자연스럽게 합성 가능함
- 예를 들어 상품을 새로운 배경에 삽입, 방 전체의 컬러톤·질감 변경, 단일 프롬프트로 이미지 융합*을 지원함
- 템플릿 앱을 이용해 드래그앤드롭 방식으로 제품을 배치, 포토리얼리스틱한 융합 이미지 생성 가능

시작 및 파트너십

개발자 문서를 통해 바로 시작 가능하며, 현재는 프리뷰 상태이나 곧 안정화 예정임
데모 앱들은 모두 Google AI Studio에서 코드 리믹스와 커스터마이즈 가능함
OpenRouter.ai와 제휴하여 300만 개발자에게 모델을 제공하며, OpenRouter의 480여 개 지원 모델 중 최초로 이미지 생성 가능 모델임
fal.ai와의 협업으로 더 넓은 개발자 커뮤니티에게 지원 확대

디지털 워터마크 및 피드백

Gemini 2.5 Flash Image로 생성·편집한 모든 이미지는 보이지 않는 SynthID 디지털 워터마크가 삽입되어 AI 생성물임을 감지할 수 있음
텍스트 품질, 캐릭터 일관성, 이미지 세부 묘사 등 지속적 기능 개선 중임
개발자 피드백은 Google 개발자 포럼 또는 X(구 Twitter)를 통해 수시로 받음

간단한 사용 예시 (Python 코드)

Python에서 genai SDK와 PIL, io 라이브러리를 통해 원하는 프롬프트와 이미지로 Gemini 2.5 Flash Image 활용 가능함
예시: “내 고양이가 레스토랑에서 nano-banana를 먹는 모습"과 같은 자유로운 프롬프트 적용 가능
출력 결과물은 코드 내에서 단순 텍스트와 이미지 파일로 모두 저장 가능