Saltar al contenido principal
POST
/
kling
/
v1
/
videos
/
avatar
/
image2video
Create a Kling avatar task
curl --request POST \
  --url https://api.cometapi.com/kling/v1/videos/avatar/image2video \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "image": "example"
}
'
{
  "code": 123,
  "message": "<string>",
  "data": {
    "task_id": "<string>",
    "task_status": "<string>",
    "created_at": 123,
    "updated_at": 123,
    "task_info": {}
  }
}
Usa este endpoint para crear clips de avatares parlantes a partir de una imagen de origen y una fuente de audio.

Antes de llamarlo

  • Proporciona una image de avatar como URL pública o cadena base64 sin procesar
  • Envía exactamente uno de audio_id o sound_file
  • Mantén la primera solicitud simple: una imagen de rostro, un clip de audio y un prompt opcional corto
  • Comienza con mode: std a menos que necesites específicamente la ruta de mayor calidad

Reglas de la fuente de audio

  • audio_id es la forma más sencilla cuando ya generaste voz mediante la ruta Kling TTS
  • sound_file funciona cuando ya tienes tu propio recurso MP3, WAV, M4A o AAC
  • La documentación indica que el audio del avatar debe durar entre 2 y 60 segundos

Flujo de la tarea

1

Crear la tarea de avatar

Envía la imagen y una fuente de audio, luego guarda el id de tarea devuelto.
2

Consultar la tarea

Continúa con Consultas individuales hasta que la tarea alcance un estado terminal.
3

Guardar el resultado final

Copia el recurso final en tu propio almacenamiento si necesitas conservarlo más allá de la URL de entrega del proveedor.
Para ver la referencia completa de parámetros, consulta la documentación oficial de Kling Avatar.

Autorizaciones

Authorization
string
header
requerido

Bearer token authentication. Use your CometAPI key.

Encabezados

Content-Type
string

Optional content type header.

Cuerpo

application/json
image
string
predeterminado:example
requerido

Avatar reference image. Accepts an image URL or raw Base64 string (no data: prefix). Supported formats: JPG, JPEG, PNG. Max file size 10 MB. Minimum dimension 300 px on each side; aspect ratio between 1:2.5 and 2.5:1.

audio_id
string
requerido

Audio ID returned by the Kling TTS API. Only audio clips between 2 and 60 seconds generated within the last 30 days are accepted. Mutually exclusive with sound_file — exactly one must be provided.

sound_file
string

Audio file as a URL or Base64 string. Accepted formats: MP3, WAV, M4A, AAC. Max 5 MB, duration 2–60 seconds. Mutually exclusive with audio_id — exactly one must be provided.

prompt
string

Text prompt to guide avatar actions, emotions, and camera movements. Max 2500 characters.

mode
string

Generation mode. std (standard, faster and more cost-effective) or pro (professional, higher quality output).

callback_url
string

Webhook URL for task status notifications. The server sends a callback when the task status changes.

external_task_id
string

Optional user-defined task ID for your own tracking. Does not replace the system-generated task ID. Must be unique per account.

Respuesta

200 - application/json

Task accepted.

code
integer
requerido
message
string
requerido
data
object
requerido