Публичная документация
Что отслеживать в продакшене
- Баланс и лимиты — периодически опрашивайте
GET /api/v1/keyилиGET /api/v1/creditsи алертьте на низкий остаток до того, как клиенты получат402. - Коды ответов — доля
401,402,403,429и5xxпо вашему приложению; всплески часто связаны с ключами, квотами или таймаутами upstream. - Латентность — время до первого токена при стриминге и полное время ответа для нестриминговых вызовов.
- Идентификатор запроса — в ответах шлюза может присутствовать корреляционный идентификатор (например, в заголовках или теле в зависимости от клиента); сохраняйте его в логах приложения для разбора инцидентов вместе с
modelи длиной промпта.
Рекомендации по логированию
- Логируйте модель, HTTP-статус, длительность, тип вызова (stream / non-stream), без полного текста промптов и ответов — чтобы не раздувать хранилище и не копить персональные данные без необходимости.
- Ключи и заголовки
Authorizationв логах не пишите; при отладке маскируйте значение.
Связь с биллингом
После успешного ответа списание зависит от наличия usage в ответе upstream. Если в метриках видно много успешных 200, но расход не растёт, сверьтесь с разделом «Стриминг и биллинг» и «Устранение неполадок».
Дополнительно
- Интерактивная спецификация подмножества эндпоинтов: документация API (Swagger) и страница «HTTP-коды и ошибки».
Нужен следующий раздел?
Откройте обзор, dashboard, мультимодальность или технические сценарии API.