Идентификатор модели
nvidia/llama-3.3-nemotron-super-49b-v1.5
Характеристики
- Контекстное окно
- 131K токенов
- Провайдер
- 131072
- Архитектура
- text->text
Модальности
Входящие
- text
Исходящие
- text
Цены
Оплата по факту за использованные токены и операции. Цены в рублях (за 1 млн токенов или за единицу — как указано).
| Тип | Стоимость |
|---|---|
| Входящие токены | 10.52 ₽ / 1M |
| Исходящие токены | 42.10 ₽ / 1M |
Цены могут меняться в зависимости от курса валют. Данные по тарифам поступают от поставщика услуг и обновляются каждые сутки.
Описание
Llama-3.3-Nemotron-Super-49B-v1.5 — англоцентричная модель рассуждений/чата с 49B параметрами, созданная на основе Meta Llama-3.3-70B-Instruct с контекстом 128K. Дообучена для агентных рабочих процессов (RAG, вызов инструментов) методом SFT по математике, коду, науке и многоходовому чату, с последующими несколькими этапами RL: Reward-aware Preference Optimization (RPO) для выравнивания, RL with Verifiable Rewards (RLVR) для пошагового рассуждения и итеративный DPO для улучшения поведения при использовании инструментов. Поиск нейронной архитектуры на основе дистилляции («Puzzle») заменяет некоторые блоки внимания и варьирует ширину FFN для уменьшения потребления памяти и увеличения пропускной способности, позволяя развёртывание на одном GPU (H100/H200) с сохранением качества следования инструкциям и цепочки рассуждений.
Во внутренних оценках (NeMo-Skills, до 16 запусков, temp = 0.6, top_p = 0.95) модель показывает сильные результаты в рассуждении/программировании: MATH500 pass@1 = 97.4, AIME-2024 = 87.5, AIME-2025 = 82.71, GPQA = 71.97, LiveCodeBench (24.10–25.02) = 73.58 и MMLU-Pro (CoT) = 79.53. Модель нацелена на практическую эффективность инференса (высокая скорость токенов/сек, сниженный VRAM) с поддержкой Transformers/vLLM и явными режимами «рассуждение вкл./выкл.» (по умолчанию — чат, при отключении рекомендуется жадная стратегия). Подходит для построения агентов, ассистентов и систем извлечения с длинным контекстом, где важен баланс между точностью и стоимостью и надёжное использование инструментов.
API и примеры кода
Единый API совместим с OpenAI SDK. Используйте ключ из личного кабинета.
from openai import OpenAI
client = OpenAI(
base_url="https://routerapi.ru/api/v1",
api_key="YOUR_API_KEY",
)
response = client.chat.completions.create(
model="nvidia/llama-3.3-nemotron-super-49b-v1.5",
messages=[{"role": "user", "content": "Привет!"}],
)
print(response.choices[0].message.content)
Совместимо с OpenAI Python SDK, Node.js SDK, curl и любым HTTP-клиентом. Документация API · Все модели