Completions

The completions endpoint generates text from a single prompt. For conversational use cases, prefer Chat Completions.

Edge endpoints require a JWT. See Authentication for how to obtain one.

Create Completion

POST /v1/completions

Generate a completion for the given prompt.

Request Body

Parameter	Type	Required	Default	Description
`prompt`	string	Yes	—	The prompt to complete
`model`	string	No	`gpt2`	Model ID
`max_tokens`	integer	No	100	Maximum tokens (1-4096)
`temperature`	number	No	0.7	Sampling temperature (0.0-2.0)
`top_p`	number	No	0.9	Nucleus sampling (0.0-1.0)
`top_k`	integer	No	50	Top-k sampling
`frequency_penalty`	number	No	0.0	Frequency penalty (-2.0 to 2.0)
`presence_penalty`	number	No	0.0	Presence penalty (-2.0 to 2.0)
`stop`	array	No	—	Up to 4 stop sequences
`user`	string	No	—	End-user identifier

Example Request

# Edge endpoints require a JWT — see Authentication
curl -X POST https://api.yto-01.edge.polargrid.ai/v1/completions \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Once upon a time",
    "model": "Meta-Llama-3.1-8B-Instruct",
    "max_tokens": 100,
    "temperature": 0.8
  }'

Response

{
  "id": "cmpl-abc123",
  "object": "text_completion",
  "created": 1234567890,
  "model": "Meta-Llama-3.1-8B-Instruct",
  "choices": [
    {
      "text": " in a land far away, there lived a young princess...",
      "index": 0,
      "logprobs": null,
      "finish_reason": "length"
    }
  ],
  "usage": {
    "prompt_tokens": 4,
    "completion_tokens": 100,
    "total_tokens": 104
  }
}

Streaming

Enable streaming for real-time token generation:

for await (const chunk of client.completionStream({
  prompt: 'Once upon a time',
  model: 'Meta-Llama-3.1-8B-Instruct',
})) {
  process.stdout.write(chunk.choices[0].text);
}

Legacy Generate Method

The SDKs also provide a generate() method for backward compatibility. It wraps chatCompletion() internally:

const response = await client.generate({
  model: 'Meta-Llama-3.1-8B-Instruct',
  prompt: 'Hello, how are you?',
  maxTokens: 100,
});

console.log(response.content);
console.log(`Processing time: ${response.processingTimeMs}ms`);

Overview

Chat & Completions

Audio

Models

Infrastructure

Completions

Completions

Create Completion

Request Body

Example Request

Response

Streaming

Legacy Generate Method

Overview

Chat & Completions

Audio

Models

Infrastructure

​Completions

​Create Completion

​Request Body

​Example Request

​Response

​Streaming

​Legacy Generate Method

Completions

Create Completion

Request Body

Example Request

Response

Streaming

Legacy Generate Method