Мультимодальность RouterAPI

Публичная документация

Что поддерживается

RouterAPI проксирует мультимодальные сценарии для тех моделей, которые умеют работать не только с текстом. Это может включать:

текст;
изображения;
аудио;
видео;
файлы и PDF.

Главное правило

Поддержка зависит от конкретной модели и upstream-провайдера. RouterAPI не добавляет возможности, которых нет у выбранной модели, но корректно проксирует совместимый запрос и возвращает ответ в исходном формате.

Базовый принцип

Если модель понимает мультимодальный payload, RouterAPI принимает такой запрос через публичный POST /api/v1/chat/completions и проксирует его без нежелательной трансформации.

Когда это полезно

когда нужно описать картинку по изображению;
когда требуется извлечь смысл из аудио;
когда модель умеет работать с видео или файлами;
когда один и тот же клиент должен поддерживать несколько типов контента.

Что обязательно указать в документации

формат входных данных;
пример запроса;
пример ответа;
ограничения модели;
пометку, что сценарий model-dependent.

Нужен следующий раздел?

Откройте обзор, dashboard, мультимодальность или технические сценарии API.