Chat Completions

Oversikt

Chat Completions-endepunktet er det mest brukte API-et for å samhandle med store språkmodeller. Det godtar en samtale som består av flere meldinger og returnerer modellens svar. CometAPI ruter dette endepunktet til flere leverandører — inkludert OpenAI, Anthropic Claude (via kompatibilitetslag), Google Gemini og andre — gjennom ett samlet grensesnitt. Du kan bytte mellom modeller ved ganske enkelt å endre model-parameteren.

Dette endepunktet følger OpenAI Chat Completions-formatet. De fleste OpenAI-kompatible SDK-er og verktøy fungerer med CometAPI ved å endre base_url til https://api.cometapi.com/v1.

Viktige merknader

Modellspesifikk oppførsel — Ulike modeller kan støtte ulike delmengder av parametere og returnere litt forskjellige responsfelt. For eksempel gjelder reasoning_effort bare for resonneringsmodeller (o-series, GPT-5.1+), og noen modeller støtter kanskje ikke logprobs eller n > 1.

Direkte videresending av svar — CometAPI videresender modellsvar uten endringer (bortsett fra formatnormalisering ved ruting mellom leverandører), slik at du mottar utdata som er konsistente med det opprinnelige API-et.

OpenAI Pro-modeller — For modeller i OpenAI Pro-serien (f.eks. o1-pro), bruk endepunktet responses i stedet.

Meldingsroller

Rolle	Beskrivelse
`system`	Angir assistentens oppførsel og personlighet. Plasseres i starten av samtalen.
`developer`	Erstatter `system` for nyere modeller (o1+). Gir instruksjoner modellen skal følge uavhengig av brukerinput.
`user`	Meldinger fra sluttbrukeren.
`assistant`	Tidligere modellsvar, brukt for å opprettholde samtalehistorikk.
`tool`	Resultater fra tool-/function-kall. Må inkludere `tool_call_id` som samsvarer med det opprinnelige tool-kallet.

For nyere modeller (GPT-4.1, GPT-5 series, o-series), foretrekk developer fremfor system for instruksjonsmeldinger. Begge fungerer, men developer gir sterkere oppførsel for å følge instruksjoner.

Multimodal input

Mange modeller støtter bilder og lyd sammen med tekst. Bruk array-formatet for content for å sende multimodale meldinger:

{
  "role": "user",
  "content": [
    {"type": "text", "text": "Describe this image"},
    {
      "type": "image_url",
      "image_url": {
        "url": "https://example.com/image.png",
        "detail": "high"
      }
    }
  ]
}

Parameteren detail styrer dybden på bildeanalysen:

low — raskere, bruker færre Tokens (fast kostnad)
high — detaljert analyse, flere Tokens brukes
auto — modellen bestemmer (standard)

Streaming

Når stream er satt til true, leveres responsen som Server-Sent Events (SSE). Hver hendelse inneholder et chat.completion.chunk-objekt med inkrementelt innhold:

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"role":"assistant"},"finish_reason":null}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"content":"Hello"},"finish_reason":null}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"content":"!"},"finish_reason":null}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{},"finish_reason":"stop"}]}

data: [DONE]

For å inkludere statistikk for tokenbruk i Streaming-responser, sett stream_options.include_usage til true. Bruksdataene vises i den siste chunken før [DONE].

Structured Outputs

Tving modellen til å returnere gyldig JSON som samsvarer med et bestemt schema ved å bruke response_format:

{
  "response_format": {
    "type": "json_schema",
    "json_schema": {
      "name": "result",
      "strict": true,
      "schema": {
        "type": "object",
        "properties": {
          "answer": {"type": "string"},
          "confidence": {"type": "number"}
        },
        "required": ["answer", "confidence"],
        "additionalProperties": false
      }
    }
  }
}

JSON Schema-modus (json_schema) garanterer at output samsvarer nøyaktig med schemaet ditt. JSON Object-modus (json_object) garanterer bare gyldig JSON — strukturen håndheves ikke.

Tool / Function Calling

Aktiver modellen til å kalle eksterne funksjoner ved å oppgi tool-definisjoner:

{
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "get_weather",
        "description": "Get current weather for a city",
        "parameters": {
          "type": "object",
          "properties": {
            "location": {"type": "string", "description": "City name"}
          },
          "required": ["location"]
        }
      }
    }
  ],
  "tool_choice": "auto"
}

Når modellen bestemmer seg for å kalle et tool, vil responsen ha finish_reason: "tool_calls" og arrayen message.tool_calls vil inneholde funksjonsnavnet og argumentene. Deretter kjører du funksjonen og sender resultatet tilbake som en tool-melding med den samsvarende tool_call_id.

Response Fields

Field	Description
`id`	Unik identifikator for completion (f.eks. `chatcmpl-abc123`).
`object`	Alltid `chat.completion`.
`model`	Modellen som genererte responsen (kan inkludere versjonssuffiks).
`choices`	Array med completion-valg (vanligvis 1 med mindre `n` > 1).
`choices[].message`	Assistentens responsmelding med `role`, `content` og eventuelt `tool_calls`.
`choices[].finish_reason`	Hvorfor modellen stoppet: `stop`, `length`, `tool_calls` eller `content_filter`.
`usage`	Oversikt over tokenforbruk: `prompt_tokens`, `completion_tokens`, `total_tokens` og detaljerte undertellinger.
`system_fingerprint`	Fingeravtrykk for backend-konfigurasjon for feilsøking av reproducerbarhet.

Merknader på tvers av leverandører

Parameterstøtte på tvers av leverandører

Parameter	OpenAI GPT	Claude (via compat)	Gemini (via compat)
`temperature`	0–2	0–1	0–2
`top_p`	0–1	0–1	0–1
`n`	1–128	Kun 1	1–8
`stop`	Opptil 4	Opptil 4	Opptil 5
`tools`	✅	✅	✅
`response_format`	✅	✅ (json_schema)	✅
`logprobs`	✅	❌	❌
`reasoning_effort`	o-series, GPT-5.1+	❌	❌ (bruk `thinking` for Gemini native)

max_tokens vs max_completion_tokens

max_tokens — Den eldre parameteren. Fungerer med de fleste modeller, men er avviklet for nyere OpenAI-modeller.
max_completion_tokens — Den anbefalte parameteren for GPT-4.1, GPT-5-serien og o-series-modeller. Påkrevd for resonneringsmodeller siden den inkluderer både output tokens og reasoning tokens.

CometAPI håndterer automatisk mappingen ved ruting til ulike leverandører.

system vs developer role

system — Den tradisjonelle instruksjonsrollen. Fungerer med alle modeller.
developer — Introdusert med o1-modeller. Gir sterkere etterlevelse av instruksjoner for nyere modeller. Faller tilbake til system-oppførsel på eldre modeller.

Bruk developer for nye prosjekter som retter seg mot GPT-4.1+ eller o-series-modeller.

Ofte stilte spørsmål

Hvordan håndtere rate limits?

Når du møter 429 Too Many Requests, implementer eksponentiell backoff:

import time
import random
from openai import OpenAI, RateLimitError

client = OpenAI(
    base_url="https://api.cometapi.com/v1",
    api_key="<COMETAPI_KEY>",
)

def chat_with_retry(messages, max_retries=3):
    for i in range(max_retries):
        try:
            return client.chat.completions.create(
                model="gpt-5.4",
                messages=messages,
            )
        except RateLimitError:
            if i < max_retries - 1:
                wait_time = (2 ** i) + random.random()
                time.sleep(wait_time)
            else:
                raise

Hvordan opprettholde samtalekontekst?

Inkluder hele samtalehistorikken i messages-arrayet:

messages = [
    {"role": "developer", "content": "You are a helpful assistant."},
    {"role": "user", "content": "What is Python?"},
    {"role": "assistant", "content": "Python is a high-level programming language..."},
    {"role": "user", "content": "What are its main advantages?"},
]

Hva betyr `finish_reason`?

Value	Betydning
`stop`	Naturlig fullføring eller traff en stop-sekvens.
`length`	Nådde grensen for `max_tokens` eller `max_completion_tokens`.
`tool_calls`	Modellen kalte ett eller flere tool/function-kall.
`content_filter`	Output ble filtrert på grunn av innholdspolicy.

Hvordan kontrollere kostnader?

Bruk max_completion_tokens for å begrense output-lengden.
Velg kostnadseffektive modeller (f.eks. gpt-5.4-mini eller gpt-5.4-nano for enklere oppgaver).
Hold prompts korte — unngå redundant kontekst.
Overvåk token-bruk i responsfeltet usage.

Autorisasjoner

Authorization

string

header

påkrevd

Bearer token authentication. Use your CometAPI key.

Kropp

application/json

model

string

standard:gpt-5.4

påkrevd

Model ID to use for this request. See the Models page for current options.

Eksempel:

"gpt-4.1"

messages

object[]

påkrevd

A list of messages forming the conversation. Each message has a role (system, user, assistant, or developer) and content (text string or multimodal content array).

Show child attributes

stream

boolean

If true, partial response tokens are delivered incrementally via server-sent events (SSE). The stream ends with a data: [DONE] message.

temperature

number

standard:1

Sampling temperature between 0 and 2. Higher values (e.g., 0.8) produce more random output; lower values (e.g., 0.2) make output more focused and deterministic. Recommended to adjust this or top_p, but not both.

Nødvendig område: 0 <= x <= 2

top_p

number

standard:1

Nucleus sampling parameter. The model considers only the tokens whose cumulative probability reaches top_p. For example, 0.1 means only the top 10% probability tokens are considered. Recommended to adjust this or temperature, but not both.

Nødvendig område: 0 <= x <= 1

integer

standard:1

Number of completion choices to generate for each input message. Defaults to 1.

stop

string

Up to 4 sequences where the API will stop generating further tokens. Can be a string or an array of strings.

max_tokens

integer

Maximum number of tokens to generate in the completion. The total of input + output tokens is capped by the model's context length.

presence_penalty

number

standard:0

Number between -2.0 and 2.0. Positive values penalize tokens based on whether they have already appeared, encouraging the model to explore new topics.

Nødvendig område: -2 <= x <= 2

frequency_penalty

number

standard:0

Number between -2.0 and 2.0. Positive values penalize tokens proportionally to how often they have appeared, reducing verbatim repetition.

Nødvendig område: -2 <= x <= 2

logit_bias

object

A JSON object mapping token IDs to bias values from -100 to 100. The bias is added to the model's logits before sampling. Values between -1 and 1 subtly adjust likelihood; -100 or 100 effectively ban or force selection of a token.

user

string

A unique identifier for your end-user. Helps with abuse detection and monitoring.

max_completion_tokens

integer

An upper bound for the number of tokens to generate, including visible output tokens and reasoning tokens. Use this instead of max_tokens for GPT-4.1+, GPT-5 series, and o-series models.

response_format

object

Specifies the output format. Use {"type": "json_object"} for JSON mode, or {"type": "json_schema", "json_schema": {...}} for strict structured output.

Show child attributes

tools

object[]

A list of tools the model may call. Currently supports function type tools.

Show child attributes

tool_choice

standard:auto

Controls how the model selects tools. auto (default): model decides. none: no tools. required: must call a tool.

logprobs

boolean

standard:false

Whether to return log probabilities of the output tokens.

top_logprobs

integer

Number of most likely tokens to return at each position (0-20). Requires logprobs to be true.

Nødvendig område: 0 <= x <= 20

reasoning_effort

enum<string>

Controls the reasoning effort for o-series and GPT-5.1+ models.

Tilgjengelige alternativer:

low,

medium,

high

stream_options

object

Options for streaming. Only valid when stream is true.

Show child attributes

service_tier

enum<string>

Specifies the processing tier.

Tilgjengelige alternativer:

auto,

default,

flex,

priority

Svar

200 - application/json

Successful chat completion response.

string

Unique completion identifier.

Eksempel:

"chatcmpl-abc123"

object

enum<string>

Tilgjengelige alternativer:

chat.completion

Eksempel:

"chat.completion"

created

integer

Unix timestamp of creation.

Eksempel:

1774412483

model

string

The model used (may include version suffix).

Eksempel:

"gpt-5.4-2025-07-16"

choices

object[]

Array of completion choices.

Show child attributes

usage

object

Show child attributes

service_tier

string

Eksempel:

"default"

system_fingerprint

string | null

Eksempel:

"fp_490a4ad033"

Oversikt

API-referanse

Integrasjonsveiledninger

Feil

Priser og fakturering

Support

Oversikt

Viktige merknader

Meldingsroller

Multimodal input

Streaming

Structured Outputs

Tool / Function Calling

Response Fields

Merknader på tvers av leverandører

Ofte stilte spørsmål

Hvordan håndtere rate limits?

Hvordan opprettholde samtalekontekst?

Hva betyr `finish_reason`?

Hvordan kontrollere kostnader?

Autorisasjoner

Kropp

Svar

Oversikt

API-referanse

Integrasjonsveiledninger

Feil

Priser og fakturering

Support

​Oversikt

​Viktige merknader

​Meldingsroller

​Multimodal input

​Streaming

​Structured Outputs

​Tool / Function Calling

​Response Fields

​Merknader på tvers av leverandører

​Ofte stilte spørsmål

​Hvordan håndtere rate limits?

​Hvordan opprettholde samtalekontekst?

​Hva betyr finish_reason?

​Hvordan kontrollere kostnader?

Autorisasjoner

Kropp

Svar

Oversikt

Viktige merknader

Meldingsroller

Multimodal input

Streaming

Structured Outputs

Tool / Function Calling

Response Fields

Merknader på tvers av leverandører

Ofte stilte spørsmål

Hvordan håndtere rate limits?

Hvordan opprettholde samtalekontekst?

Hva betyr `finish_reason`?

Hvordan kontrollere kostnader?