- 文生图
- 图像到图像编辑
- 多图合成
- 保存生成的图像
- 基础 URL:
https://api.cometapi.com - 安装 SDK:
pip install google-genai(Python)或npm install @google/genai(Node.js)
设置
使用 CometAPI 的基础 URL 初始化客户端:文本到图像生成
根据文本 Prompt 生成图像并将其保存到文件中。candidates[0].content.parts 中,其中可以包含文本部分和/或图像部分:
图生图生成
上传一张输入图片,并通过文本 Prompt 对其进行转换。- Python SDK 可直接接受
PIL.Image对象——无需手动进行 Base64 编码。 - 传递原始 Base64 字符串时,不要包含
data:image/jpeg;base64,前缀。
多图像合成
从多个输入图像生成一张新图像。CometAPI 支持两种方式:方法 1:单张拼贴图
将多张源图像合并为一张拼贴图,然后描述期望的输出效果。

方法 2:多张独立图像(最多 14 张)
直接传入多张图像。Gemini 3 模型最多支持 14 张参考图像(对象 + 角色):
4K 图像生成
指定带有aspect_ratio 和 image_size 的 image_config 以获得高分辨率输出:
多轮图像编辑(Chat)
使用 SDK 的 chat 功能对图像进行迭代优化:提示
Prompt 优化
Prompt 优化
指定风格关键词(例如:“cyberpunk、film grain、low contrast”)、宽高比、主体、背景、光照和细节级别。
Base64 格式
Base64 格式
使用原始 HTTP 时,不要包含
data:image/png;base64, 前缀——只使用原始 Base64 字符串。Python SDK 会通过 PIL.Image 对象自动处理这一点。强制输出图像
强制输出图像
将
"responseModalities" 仅设置为 ["IMAGE"],即可保证只输出图像而不包含文本。