Gemini 2.5 Flash Image - 최신 이미지 생성 및 편집 모델 공개

1 day ago 2

  • Google이 Nano-Banana로 알려진, 이미지 생성·편집 능력이 한층 강화된 Gemini 2.5 Flash Image를 공개
  • 캐릭터 일관성 유지, 자연어 기반 부분 편집, 세계 지식 활용, 다중 이미지 결합 등을 지원함
  • 개발자는 Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai 등을 통해 모델을 바로 사용할 수 있음
  • 가격은 100만 출력 토큰당 30달러, 이미지 한 장당 약 0.039달러
  • 모든 결과물은 보이지 않는 디지털 SynthID 워터마크가 삽입됨

Gemini 2.5 Flash Image 소개

  • Google은 차세대 이미지 생성 및 편집 모델인 Gemini 2.5 Flash Image(코드명 nano-banana)를 발표함
  • 이번 업데이트로 여러 이미지를 하나로 합성, 특정 인물이나 객체의 일관성 유지, 자연어를 활용한 세밀한 변형, 그리고 Gemini의 세계 지식을 바탕으로 한 이미지 생성 및 편집 기능이 가능해짐
  • 초기 버전인 Gemini 2.0 Flash에서도 낮은 지연시간, 비용 효율성, 사용 용이성이 장점이었으나, 사용자의 피드백을 반영하여 이번에 더 높은 품질의 이미지와 강화된 창의적 제어 기능이 추가됨
  • 현재 Gemini API, Google AI Studio, Vertex AI 등에서 사용 가능하며, 과금은 100만 출력 토큰당 $30로 책정됨(이미지 1개 당 약 $0.039)
  • 기타 입·출력 방식도 Gemini 2.5 Flash와 동일한 가격 정책을 따름
  • 공식 사이트 https://deepmind.google/models/gemini/image/

주요 기능과 시나리오

  • Google AI Studio의 “Build Mode” 업그레이드

    • Gemini 2.5 Flash Image로 앱 개발이 더 간편해짐
    • 개발자는 사용자 정의 AI 앱을 빠르게 제작, 테스트, 리믹스 가능하며, Google AI Studio에서 직접 배포하거나 코드를 GitHub에 저장할 수 있음
    • 예를 들어 “사용자가 이미지를 업로드하고 필터를 적용할 수 있는 이미지 편집 앱 제작”과 같은 프롬프트로 간단하게 앱을 만들 수 있음
    • 기본 제공 템플릿 선택/리믹스 기능도 무료로 제공됨
  • 캐릭터 일관성 유지

    • 이미지 생성 과정에서 동일한 캐릭터의 외형 유지가 큰 도전 과제였음
    • Gemini 2.5 Flash Image는 같은 인물을 다양한 환경에 배치하거나, 제품을 여러 각도/장소에서 표현, 브랜드 자산 일관성 확보 등에 효과적으로 활용 가능함
    • Google AI Studio 템플릿 앱을 통해 캐릭터 일관성 시연 및 코드 커스터마이즈가 쉬움
    • 이 기능은 부동산 카드, 직원 배지, 대량 상품 목업 등 템플릿 기반 디자인 일관성 확보에도 응용될 수 있음
  • 자연어 프롬프트 기반 이미지 편집

    • 사용자는 자연어 지시만으로 이미지 일부를 변형할 수 있음
    • 예시로는 배경 블러, 티셔츠 얼룩 지우기, 인물 삭제, 포즈 변경, 흑백 이미지를 컬러 이미지로 변환 등이 있음
    • UI/프롬프트 기반 편집이 가능한 템플릿 앱이 제공되어 실제 적용 경험이 가능함
  • 세계 지식 기반 네이티브 활용

    • 기존 모델이 미적인 이미지 생성에 강점이 있었던 반면, 현실 세계에 대한 의미론적 이해는 약했음
    • Gemini 2.5 Flash Image는 세계 지식을 기반으로, 손으로 그린 다이어그램 인식, 실제 세계 질문 대응, 복잡한 편집 명령 수행 등이 가능함
    • 직접 적용 예시로, 간단한 캔버스를 상호작용 교육 튜터로 변환하는 앱이 제공됨
  • 멀티 이미지 융합

    • 이 모델은 여러 이미지를 이해하고 자연스럽게 합성 가능함
    • 예를 들어 상품을 새로운 배경에 삽입, 방 전체의 컬러톤·질감 변경, 단일 프롬프트로 이미지 융합*을 지원함
    • 템플릿 앱을 이용해 드래그앤드롭 방식으로 제품을 배치, 포토리얼리스틱한 융합 이미지 생성 가능

시작 및 파트너십

  • 개발자 문서를 통해 바로 시작 가능하며, 현재는 프리뷰 상태이나 곧 안정화 예정임
  • 데모 앱들은 모두 Google AI Studio에서 코드 리믹스와 커스터마이즈 가능함
  • OpenRouter.ai와 제휴하여 300만 개발자에게 모델을 제공하며, OpenRouter의 480여 개 지원 모델 중 최초로 이미지 생성 가능 모델임
  • fal.ai와의 협업으로 더 넓은 개발자 커뮤니티에게 지원 확대

디지털 워터마크 및 피드백

  • Gemini 2.5 Flash Image로 생성·편집한 모든 이미지는 보이지 않는 SynthID 디지털 워터마크가 삽입되어 AI 생성물임을 감지할 수 있음
  • 텍스트 품질, 캐릭터 일관성, 이미지 세부 묘사 등 지속적 기능 개선 중
  • 개발자 피드백은 Google 개발자 포럼 또는 X(구 Twitter)를 통해 수시로 받음

간단한 사용 예시 (Python 코드)

  • Python에서 genai SDK와 PIL, io 라이브러리를 통해 원하는 프롬프트와 이미지로 Gemini 2.5 Flash Image 활용 가능함
  • 예시: “내 고양이가 레스토랑에서 nano-banana를 먹는 모습"과 같은 자유로운 프롬프트 적용 가능
  • 출력 결과물은 코드 내에서 단순 텍스트와 이미지 파일로 모두 저장 가능

향후 발전 방향

  • 장문 텍스트 렌더링, 보다 신뢰성 높은 캐릭터 일관성, 사실적 세부 표현 등 지속적 수준 향상 개발 중
  • 커뮤니티의 적극적 참여와 피드백 유도
  • Gemini 2.5 Flash Image로 다양한 창작과 개발 경험 확대 기대

Read Entire Article