Публичная документация
Потоковые ответы (stream: true)
При POST /api/v1/chat/completions с stream: true шлюз проксирует SSE (text/event-stream) и после завершения потока фиксирует usage/стоимость, если эти поля присутствуют в ответе upstream.
Для Anthropic-compatible входа (POST /v1/messages) действует та же логика.
Что учитывается в биллинге
После успешного ответа:
- Парсится
usageиз JSON/SSE. - Стоимость (USD) конвертируется по правилам платформы.
- Сумма списывается с эффективного баланса (личного или организации).
Поддерживаются обе схемы токенов:
- OpenAI-compatible:
prompt_tokens,completion_tokens; - Anthropic-compatible:
input_tokens,output_tokens.
Если usage не пришел
Если upstream не вернул usage, автоматическое списание по ответу не выполняется.
Рекомендации:
- использовать модели/провайдеры, где
usageстабильно приходит; - сохранять
request_idдля диагностики; - проверять метрики стриминга и биллинга.
Таймауты
Для длинных ответов увеличьте таймаут на стороне клиента. Это особенно важно для стриминга и больших моделей.
Нужен следующий раздел?
Откройте обзор, dashboard, мультимодальность или технические сценарии API.