Модели /

NVIDIA: Llama 3.1 Nemotron Ultra 253B v1

Идентификатор модели

nvidia/llama-3.1-nemotron-ultra-253b-v1

Характеристики

Контекстное окно
131K токенов
Провайдер
131072
Архитектура
text->text

Модальности

Входящие

  • text

Исходящие

  • text

Цены

Оплата по факту за использованные токены и операции. Цены в рублях (за 1 млн токенов или за единицу — как указано).

Тип Стоимость
Входящие токены 63.15 ₽ / 1M
Исходящие токены 189.45 ₽ / 1M

Цены могут меняться в зависимости от курса валют. Данные по тарифам поступают от поставщика услуг и обновляются каждые сутки.

Описание

Llama-3.1-Nemotron-Ultra-253B-v1 — большая языковая модель (LLM), оптимизированная для продвинутого рассуждения, интерактивного чата, извлечения с дополнением генерации (RAG) и вызова инструментов. Создана на основе Meta Llama-3.1-405B-Instruct с существенной кастомизацией с помощью поиска нейронной архитектуры (NAS), что обеспечивает повышенную эффективность, сниженное потребление памяти и улучшенную задержку инференса. Модель поддерживает контекст до 128K токенов и может эффективно работать на узле из 8x NVIDIA H100.

Примечание: необходимо включить detailed thinking on в системном промпте для активации рассуждений. См. Рекомендации по использованию для получения дополнительной информации.

API и примеры кода

Единый API совместим с OpenAI SDK. Используйте ключ из личного кабинета.

main.py
from openai import OpenAI

client = OpenAI(
    base_url="https://routerapi.ru/api/v1",
    api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
    model="nvidia/llama-3.1-nemotron-ultra-253b-v1",
    messages=[{"role": "user", "content": "Привет!"}],
)

print(response.choices[0].message.content)

Совместимо с OpenAI Python SDK, Node.js SDK, curl и любым HTTP-клиентом. Документация API · Все модели