Gemini 2.5 Flash Image

18 hours ago 1

  • Google이 최첨단 이미지 생성 및 편집 모델인 Gemini 2.5 Flash Image를 공개함
  • 사용자는 여러 이미지를 하나로 합성, 캐릭터 일관성 유지, 자연어 기반의 타겟 이미지 변환 기능을 활용 가능함
  • 이 모델은 Google AI Studio, Gemini API, Vertex AI 등을 통해 개발자와 엔터프라이즈에 제공됨
  • 이미지 합성, 템플릿 기반 생성, 프로그래머블 편집 등 다양한 활용 예제가 마련되어 있음
  • AI가 만든 이미지에는 인비저블 디지털 워터마크 SynthID가 삽입되어, 생성/편집 이미지임을 식별 가능함

Gemini 2.5 Flash Image 소개

Google은 Gemini 2.5 Flash Image(코드명 nano-banana)를 공개함. 이 모델은 이미지 생성·편집, 다중 이미지 합성, 캐릭터 일관성 유지, 자연어 명령 기반 포괄적 이미지 수정 기능 등을 지원함. 또한 Gemini의 세계 지식을 활용해 기존 이미지 생성 모델 대비 심도 있는 편집 및 생성 품질을 제공함

Gemini 2.0 Flash의 이전 버전은 낮은 지연 시간, 비용 효율성, 사용 편의성을 제공하는 장점이 있었으나, 커뮤니티 요구에 따라 더 높은 품질과 창의적 제어 기능이 강화됨

이 모델은 Gemini API, Google AI Studio, Vertex AI를 통해 프리뷰 형태로 즉시 사용 가능함. 가격은 100만 출력 토큰당 $30.00이며, 한 이미지마다 1290 토큰($0.039)으로 과금됨. 입력과 출력의 여타 모달리티도 Gemini 2.5 Flash 가격 정책을 따름

실제 활용 사례

Google AI Studio의 build mode를 새롭게 개편해, 커스텀 AI 앱으로 Gemini 2.5 Flash Image 기능을 손쉽게 테스트·개발할 수 있음. 직접 프롬프트로 앱을 만들거나, 사전 제공 템플릿을 자유롭게 리믹스해 사용할 수 있음. 완성된 앱은 AI Studio에서 바로 배포하거나, 코드를 GitHub에 저장 가능함

예시 프롬프트: “사용자가 이미지를 업로드하고 다양한 필터를 적용하는 이미지 편집 앱을 만들어줘”

캐릭터 일관성 유지

이미지 생성에서 핵심 난제였던 캐릭터나 오브젝트의 외형 일관성을 효과적으로 유지 가능함. 동일한 인물을 여러 환경에 자연스럽게 배치, 한 제품을 다양한 각도 및 설정에서 제작, 브랜드 관련 에셋의 일관성 있는 생성 등이 가능함

Google AI Studio의 맞춤형 템플릿 앱을 통해 캐릭터 일관성 시연이 가능하며, 이를 기반으로 직접 코드를 커스터마이즈할 수 있음

이외에도, 비주얼 템플릿 기반 이미지 생성에 강점을 보임. 부동산 카드, 직원 배지, 카탈로그 제품 목업 등도 단일 디자인 템플릿에서 대량 생성이 가능함

프롬프트 기반 이미지 편집

자연어 명령만으로 부분 변환, 정밀한 국소 편집을 지원함. 예를 들어, 배경 흐림, 의류 얼룩 제거, 사진 인물 삭제, 피사체 자세 변경, 흑백 사진 컬러화 등이 단일 프롬프트로 가능함

이러한 기능을 직접 체험할 수 있도록, UI 및 프롬프트 기반의 포토 에디팅 템플릿 앱도 제공됨

네이티브 세계 지식

기존 이미지 생성 모델은 미적 이미지는 잘 만들지만, 실제 세계에 대한 의미론적·심층적 이해가 부족함이 문제였음. Gemini 2.5 Flash Image는 세계 지식 기반이 적용되어, 새로운 용도에서 강점이 도드라짐

예를 들어, 손그림 다이어그램을 읽고 이해하거나, 현실적 질문 답변, 복잡한 편집 명령 수행이 가능함. 이러한 특성은 AI Studio용 인터랙티브 교육 튜터 앱에서 직접 체험 가능함

다중 이미지 합성

여러 입력 이미지를 해석·융합하여 합성 이미지를 만들 수 있음. 오브젝트를 다른 장면에 배치, 방을 새로운 색상·질감으로 리스타일, 이미지 융합 등을 한 번의 프롬프트로 수행함

이를 위해 제품 이미지를 드래그해 새로운 장면에 빠르게 합성하는 템플릿 앱도 AI Studio에서 제공함

개발 시작 안내

개발자는 공식 문서로 즉시 시작 가능하며, 현재 프리뷰로 제공 중임. 본문에서 소개한 데모 앱 모두 Google AI Studio에서 vibe code로 제작되어, 프롬프트만으로 리믹스·커스터마이즈 가능함

OpenRouter.ai와 협력해 전 세계 300만명 이상의 개발자가 이용할 수 있으며, 현재 OpenRouter에서 이미지 생성을 지원하는 첫 모델임. fal.ai와의 제휴로, 더 넓은 생성 미디어 개발자 커뮤니티에서도 사용 확장 예정임

Gemini 2.5 Flash Image로 생성·편집된 이미지는 모두 보이지 않는 SynthID 디지털 워터마크가 포함되어, AI 생성 이미지임을 식별할 수 있음

Python 예제 코드

from google import genai from PIL import Image from io import BytesIO client = genai.Client() prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation" image = Image.open('/path/to/image.png') response = client.models.generate_content( model="gemini-2.5-flash-image-preview", contents=[prompt, image], ) for part in response.candidates[0].content.parts: if part.text is not None: print(part.text) elif part.inline_data is not None: image = Image.open(BytesIO(part.inline_data.data)) image.save("generated_image.png")

위 코드는 프롬프트와 이미지를 함께 입력해, Gemini 2.5 Flash Image에서 결과 생성하는 예를 보여줌

개발자 피드백 및 향후 계획

Google은 장문의 텍스트 렌더링, 캐릭터 일관성 고도화, 실제 사실감 및 디테일 개선에 계속 집중할 예정임. 피드백은 개발자 포럼과 X(구 트위터)에서 접수하며, 다양한 개발자 활용을 기대함

Read Entire Article