Guida alla chiamata dei modelli di immagini Gemini

Questa guida mostra come usare i modelli di immagini Gemini tramite CometAPI usando il Google Gen AI SDK. Include:

Generazione text-to-image
Modifica image-to-image
Composizione multi-immagine
Salvataggio delle immagini generate

Base URL: https://api.cometapi.com
Installa l’SDK: pip install google-genai (Python) o npm install @google/genai (Node.js)

Configurazione

Inizializza il client con il base URL di CometAPI:

from google import genai
from google.genai import types
import os

COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=COMETAPI_KEY,
)

Generazione Text-to-Image

Genera un’immagine da un prompt di testo e salvala in un file.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("generated_image.png")
        print("Image saved to generated_image.png")

Struttura della risposta: I dati dell’immagine si trovano in candidates[0].content.parts, che può contenere parti di testo e/o immagine:

{
  "candidates": [{
    "content": {
      "parts": [
        { "text": "Here is your image..." },
        {
          "inlineData": {
            "mimeType": "image/png",
            "data": "<base64-encoded-image>"
          }
        }
      ]
    }
  }]
}

Generazione Image-to-Image

Carica un’immagine di input e trasformala con un prompt di testo.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

# Load the source image
source_image = Image.open("source.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=["Transform this into a watercolor painting", source_image],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("watercolor_output.png")

L’SDK Python accetta direttamente oggetti PIL.Image — non è necessaria alcuna codifica Base64 manuale.
Non includere il prefisso data:image/jpeg;base64, quando passi stringhe Base64 raw.

Composizione multi-immagine

Genera una nuova immagine a partire da più immagini di input. CometAPI supporta due approcci:

Metodo 1: Un’unica immagine collage

Combina più immagini sorgente in un unico collage, quindi descrivi l’output desiderato.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

collage = Image.open("collage.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[
        "A model is posing and leaning against a pink BMW with a green alien keychain attached to a pink handbag, a pink parrot on her shoulder, and a pug wearing a pink collar and gold headphones",
        collage,
    ],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.inline_data is not None:
        part.as_image().save("composition_output.png")

Metodo 2: Più immagini separate (fino a 14)

Passa più immagini direttamente. I modelli Gemini 3 supportano fino a 14 immagini di riferimento (oggetti + personaggi):

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

image1 = Image.open("image1.jpg")
image2 = Image.open("image2.jpg")
image3 = Image.open("image3.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=["Merge the three images", image1, image2, image3],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.inline_data is not None:
        part.as_image().save("merged_output.png")

Risultato della generazione multi-immagine

Generazione di immagini 4K

Specifica image_config con aspect_ratio e image_size per un output ad alta risoluzione:

from google import genai
from google.genai import types
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Da Vinci style anatomical sketch of a Monarch butterfly on textured parchment",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio="1:1",
            image_size="4K",
        ),
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("butterfly_4k.png")

Modifica di immagini multi-turno (Chat)

Usa la funzionalità di chat dell’SDK per perfezionare iterativamente le immagini:

from google import genai
from google.genai import types
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

chat = client.chats.create(
    model="gemini-3.1-flash-image-preview",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

# First turn: generate
response = chat.send_message(
    "Create a vibrant infographic explaining photosynthesis as a recipe, styled like a colorful kids cookbook"
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("photosynthesis.png")

# Second turn: refine
response = chat.send_message("Update this infographic to be in Spanish. Do not change any other elements.")

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("photosynthesis_spanish.png")

Suggerimenti

Ottimizzazione del Prompt

Specifica parole chiave di stile (ad es. “cyberpunk, grana della pellicola, basso contrasto”), aspect ratio, soggetto, sfondo, illuminazione e livello di dettaglio.

Formato Base64

Quando usi HTTP raw, non includere il prefisso data:image/png;base64, — usa solo la stringa Base64 raw. L’SDK Python gestisce questo automaticamente con oggetti PIL.Image.

Forzare l'output immagine

Imposta "responseModalities" su solo ["IMAGE"] per garantire l’output di immagini senza testo.

Per maggiori dettagli, consulta il riferimento API. Documentazione ufficiale: Gemini Image Generation

Gemini Image Understanding

Panoramica

Riferimento API

Guide all'integrazione

Errori

Prezzi e fatturazione

Supporto

Guida alla chiamata dei modelli di immagini Gemini

Configurazione

Generazione Text-to-Image

Generazione Image-to-Image

Composizione multi-immagine

Metodo 1: Un’unica immagine collage

Metodo 2: Più immagini separate (fino a 14)

Generazione di immagini 4K

Modifica di immagini multi-turno (Chat)

Suggerimenti

Panoramica

Riferimento API

Guide all'integrazione

Errori

Prezzi e fatturazione

Supporto

​Configurazione

​Generazione Text-to-Image

​Generazione Image-to-Image

​Composizione multi-immagine

​Metodo 1: Un’unica immagine collage

​Metodo 2: Più immagini separate (fino a 14)

​Generazione di immagini 4K

​Modifica di immagini multi-turno (Chat)

​Suggerimenti

Configurazione

Generazione Text-to-Image

Generazione Image-to-Image

Composizione multi-immagine

Metodo 1: Un’unica immagine collage

Metodo 2: Più immagini separate (fino a 14)

Generazione di immagini 4K

Modifica di immagini multi-turno (Chat)

Suggerimenti