CometAPI POST /v1/chat/completions를 사용해 여러 메시지로 이루어진 대화를 전송하고 스트리밍, temperature, max_tokens 제어와 함께 LLM 응답을 받을 수 있습니다.
{
"id": "chatcmpl-DNA27oKtBUL8TmbGpBM3B3zhWgYfZ",
"object": "chat.completion",
"created": 1774412483,
"model": "gpt-4.1-nano-2025-04-14",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "Four",
"refusal": null,
"annotations": []
},
"logprobs": null,
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 29,
"completion_tokens": 2,
"total_tokens": 31,
"prompt_tokens_details": {
"cached_tokens": 0,
"audio_tokens": 0
},
"completion_tokens_details": {
"reasoning_tokens": 0,
"audio_tokens": 0,
"accepted_prediction_tokens": 0,
"rejected_prediction_tokens": 0
}
},
"service_tier": "default",
"system_fingerprint": "fp_490a4ad033"
}model 파라미터만 변경하면 모델을 간단히 전환할 수 있습니다.
base_url을 https://api.cometapi.com/v1로 변경하는 것만으로 CometAPI와 함께 사용할 수 있습니다.reasoning_effort는 추론 모델(o-series, GPT-5.1+)에만 적용되며, 일부 모델은 logprobs 또는 n > 1을 지원하지 않을 수 있습니다.o1-pro)의 경우 대신 responses 엔드포인트를 사용하세요.| 역할 | 설명 |
|---|---|
system | 어시스턴트의 동작과 성격을 설정합니다. 대화 시작 부분에 배치됩니다. |
developer | 최신 모델(o1+)에서는 system을 대체합니다. 사용자 입력과 관계없이 모델이 따라야 하는 지침을 제공합니다. |
user | 최종 사용자가 보내는 메시지입니다. |
assistant | 이전 모델 응답으로, 대화 기록을 유지하는 데 사용됩니다. |
tool | 도구/함수 호출의 결과입니다. 원래 도구 호출과 일치하는 tool_call_id를 반드시 포함해야 합니다. |
system보다 developer를 사용하는 것을 권장합니다. 둘 다 동작하지만, developer가 지침 준수 동작을 더 강하게 제공합니다.content에 배열 형식을 사용하세요:
{
"role": "user",
"content": [
{"type": "text", "text": "Describe this image"},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/image.png",
"detail": "high"
}
}
]
}
detail 파라미터는 이미지 분석 깊이를 제어합니다:
low — 더 빠르며, 더 적은 토큰을 사용합니다(고정 비용)high — 더 자세한 분석, 더 많은 토큰 소비auto — 모델이 결정합니다(기본값)stream을 true로 설정하면 응답은 Server-Sent Events (SSE) 형식으로 전달됩니다. 각 이벤트에는 점진적으로 생성되는 content를 담은 chat.completion.chunk 객체가 포함됩니다:
data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"role":"assistant"},"finish_reason":null}]}
data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"content":"Hello"},"finish_reason":null}]}
data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"content":"!"},"finish_reason":null}]}
data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{},"finish_reason":"stop"}]}
data: [DONE]
stream_options.include_usage를 true로 설정하세요. usage 데이터는 [DONE] 직전의 마지막 chunk에 표시됩니다.response_format을 사용하면 모델이 특정 스키마에 맞는 유효한 JSON을 반환하도록 강제할 수 있습니다:
{
"response_format": {
"type": "json_schema",
"json_schema": {
"name": "result",
"strict": true,
"schema": {
"type": "object",
"properties": {
"answer": {"type": "string"},
"confidence": {"type": "number"}
},
"required": ["answer", "confidence"],
"additionalProperties": false
}
}
}
}
json_schema)는 출력이 여러분의 스키마와 정확히 일치함을 보장합니다. JSON Object 모드(json_object)는 유효한 JSON만 보장하며, 구조 자체는 강제되지 않습니다.{
"tools": [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get current weather for a city",
"parameters": {
"type": "object",
"properties": {
"location": {"type": "string", "description": "City name"}
},
"required": ["location"]
}
}
}
],
"tool_choice": "auto"
}
finish_reason: "tool_calls"가 포함되고, message.tool_calls 배열에는 함수 이름과 인자가 들어 있습니다. 그런 다음 해당 함수를 실행하고, 일치하는 tool_call_id와 함께 결과를 tool 메시지로 다시 보내야 합니다.
| 필드 | 설명 |
|---|---|
id | 고유한 완성 식별자입니다(예: chatcmpl-abc123). |
object | 항상 chat.completion입니다. |
model | 응답을 생성한 모델입니다(버전 접미사가 포함될 수 있음). |
choices | 완성 선택지 배열입니다(일반적으로 n > 1이 아닌 경우 1개). |
choices[].message | role, content, 그리고 선택적으로 tool_calls를 포함하는 assistant의 응답 메시지입니다. |
choices[].finish_reason | 모델이 중단된 이유입니다: stop, length, tool_calls, 또는 content_filter. |
usage | 토큰 소비 내역입니다: prompt_tokens, completion_tokens, total_tokens, 그리고 세부 하위 집계. |
system_fingerprint | 디버깅 재현성을 위한 백엔드 구성 지문입니다. |
공급자별 파라미터 지원
| Parameter | OpenAI GPT | Claude (via compat) | Gemini (via compat) |
|---|---|---|---|
temperature | 0–2 | 0–1 | 0–2 |
top_p | 0–1 | 0–1 | 0–1 |
n | 1–128 | 1만 가능 | 1–8 |
stop | 최대 4개 | 최대 4개 | 최대 5개 |
tools | ✅ | ✅ | ✅ |
response_format | ✅ | ✅ (json_schema) | ✅ |
logprobs | ✅ | ❌ | ❌ |
reasoning_effort | o-series, GPT-5.1+ | ❌ | ❌ (Gemini 네이티브에서는 thinking 사용) |
max_tokens vs max_completion_tokens
max_tokens — 레거시 파라미터입니다. 대부분의 모델에서 작동하지만 최신 OpenAI 모델에서는 더 이상 권장되지 않습니다.max_completion_tokens — GPT-4.1, GPT-5 시리즈, o-series 모델에 권장되는 파라미터입니다. 출력 토큰과 추론 토큰을 모두 포함하므로 reasoning 모델에서는 필수입니다.system vs developer role
system — 전통적인 지시 역할입니다. 모든 모델에서 작동합니다.developer — o1 모델과 함께 도입되었습니다. 최신 모델에서 더 강한 지시 준수를 제공합니다. 구형 모델에서는 system 동작으로 대체됩니다.developer를 사용하세요.429 Too Many Requests가 발생하면 지수 백오프를 구현하세요:
import time
import random
from openai import OpenAI, RateLimitError
client = OpenAI(
base_url="https://api.cometapi.com/v1",
api_key="<COMETAPI_KEY>",
)
def chat_with_retry(messages, max_retries=3):
for i in range(max_retries):
try:
return client.chat.completions.create(
model="gpt-5.4",
messages=messages,
)
except RateLimitError:
if i < max_retries - 1:
wait_time = (2 ** i) + random.random()
time.sleep(wait_time)
else:
raise
messages 배열에 포함하세요:
messages = [
{"role": "developer", "content": "You are a helpful assistant."},
{"role": "user", "content": "What is Python?"},
{"role": "assistant", "content": "Python is a high-level programming language..."},
{"role": "user", "content": "What are its main advantages?"},
]
finish_reason는 무엇을 의미하나요?| Value | Meaning |
|---|---|
stop | 자연스럽게 완료되었거나 중지 시퀀스에 도달했습니다. |
length | max_tokens 또는 max_completion_tokens 한도에 도달했습니다. |
tool_calls | 모델이 하나 이상의 도구/함수 호출을 실행했습니다. |
content_filter | 콘텐츠 정책으로 인해 출력이 필터링되었습니다. |
max_completion_tokens를 사용하세요.gpt-5.4-mini 또는 gpt-5.4-nano).usage 응답 필드에서 토큰(Token) 사용량을 모니터링하세요.Bearer token authentication. Use your CometAPI key.
Model ID to use for this request. See the Models page for current options.
"gpt-4.1"
A list of messages forming the conversation. Each message has a role (system, user, assistant, or developer) and content (text string or multimodal content array).
Show child attributes
If true, partial response tokens are delivered incrementally via server-sent events (SSE). The stream ends with a data: [DONE] message.
Sampling temperature between 0 and 2. Higher values (e.g., 0.8) produce more random output; lower values (e.g., 0.2) make output more focused and deterministic. Recommended to adjust this or top_p, but not both.
0 <= x <= 2Nucleus sampling parameter. The model considers only the tokens whose cumulative probability reaches top_p. For example, 0.1 means only the top 10% probability tokens are considered. Recommended to adjust this or temperature, but not both.
0 <= x <= 1Number of completion choices to generate for each input message. Defaults to 1.
Up to 4 sequences where the API will stop generating further tokens. Can be a string or an array of strings.
Maximum number of tokens to generate in the completion. The total of input + output tokens is capped by the model's context length.
Number between -2.0 and 2.0. Positive values penalize tokens based on whether they have already appeared, encouraging the model to explore new topics.
-2 <= x <= 2Number between -2.0 and 2.0. Positive values penalize tokens proportionally to how often they have appeared, reducing verbatim repetition.
-2 <= x <= 2A JSON object mapping token IDs to bias values from -100 to 100. The bias is added to the model's logits before sampling. Values between -1 and 1 subtly adjust likelihood; -100 or 100 effectively ban or force selection of a token.
A unique identifier for your end-user. Helps with abuse detection and monitoring.
An upper bound for the number of tokens to generate, including visible output tokens and reasoning tokens. Use this instead of max_tokens for GPT-4.1+, GPT-5 series, and o-series models.
Specifies the output format. Use {"type": "json_object"} for JSON mode, or {"type": "json_schema", "json_schema": {...}} for strict structured output.
Show child attributes
A list of tools the model may call. Currently supports function type tools.
Show child attributes
Controls how the model selects tools. auto (default): model decides. none: no tools. required: must call a tool.
Whether to return log probabilities of the output tokens.
Number of most likely tokens to return at each position (0-20). Requires logprobs to be true.
0 <= x <= 20Controls the reasoning effort for o-series and GPT-5.1+ models.
low, medium, high Options for streaming. Only valid when stream is true.
Show child attributes
Specifies the processing tier.
auto, default, flex, priority Successful chat completion response.
Unique completion identifier.
"chatcmpl-abc123"
chat.completion "chat.completion"
Unix timestamp of creation.
1774412483
The model used (may include version suffix).
"gpt-5.4-2025-07-16"
Array of completion choices.
Show child attributes
Show child attributes
"default"
"fp_490a4ad033"
{
"id": "chatcmpl-DNA27oKtBUL8TmbGpBM3B3zhWgYfZ",
"object": "chat.completion",
"created": 1774412483,
"model": "gpt-4.1-nano-2025-04-14",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "Four",
"refusal": null,
"annotations": []
},
"logprobs": null,
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 29,
"completion_tokens": 2,
"total_tokens": 31,
"prompt_tokens_details": {
"cached_tokens": 0,
"audio_tokens": 0
},
"completion_tokens_details": {
"reasoning_tokens": 0,
"audio_tokens": 0,
"accepted_prediction_tokens": 0,
"rejected_prediction_tokens": 0
}
},
"service_tier": "default",
"system_fingerprint": "fp_490a4ad033"
}