Запуск продукта на топовой LLM вроде Claude 3.5 Sonnet всегда проходит по одному предсказуемому сценарию. Сначала команда разработки восхищается качеством генерации и глубиной понимания контекста. Пользователи оставляют восторженные отзывы. А затем приходит первый полноценный счет за использование API, и эйфория мгновенно улетучивается. Финансовый директор смотрит на пятизначную сумму и задает резонный вопрос: на что конкретно мы сжигаем эти деньги?
Идея создать AI-приложение за пару вечеров выглядит привлекательно. Документация провайдеров предлагает простые примеры: вставьте ключ в конструктор клиента, вызовите метод `chat.completions.create` и получите готовый результат. Разработчики переносят этот подход в реальные проекты. Ключ `sk-proj-..` оседает в переменных окружения фронтенд-сборки, прописывается в `.env.local` и запекается в бандл. Проект улетает на деплой.
Большинство AI-стартапов умирает не от плохой архитектуры или слабых промптов. Они умирают от кассового разрыва. Фаундеры слепо переносят привычные SaaS-модели в мир генеративного искусственного интеллекта, запускают тариф «Безлимит за $9.99» и искренне радуются притоку пользователей. А через месяц получают счет от OpenAI или Anthropic на десятки тысяч долларов. Стартап тихо закрывается.
Запуск LLM-ботов часто сопровождается эйфорией, которая длится ровно до получения первого счета от API-провайдера. Команды фокусируются на качестве системных промптов и задержке (latency), упуская из виду механику потребления ресурсов. Когда пользователь отправляет пятидесятое сообщение в чат, вы платите не за него. Вы платите за всю историю сессии, переотправленную заново. Если не внедрить жесткую обрезку контекста (truncation), безобидное «спасибо» в конце долгого диалога обходится проекту…
Утро вторника началось не с кофе, а с SMS от банка о попытке списания средств и серии алертов от биллинговой системы. Открыв дашборд провайдера LLM, я увидел график потребления токенов, устремившийся вертикально вверх. За одну ночь ничем не примечательный эндпоинт нашего нового AI-ассистента сжег тысячу долларов.
В апреле прошлого года наш продакшен встал ровно в 03:00 по Москве. Мониторинг взорвался алертами HTTP 402 Payment Required от API OpenAI. Причина оказалась банальной: виртуальная карта банка из СНГ, привязанная к биллингу, уперлась в невидимый лимит на трансграничные операции. Пока мы будили CEO, искали человека с работающей зарубежной картой и перепривязывали способы оплаты, сервис лежал четыре часа. SLA был нарушен, клиенты негодовали.
Вы открываете калькулятор токенов. Дано: 500 тысяч пользовательских обращений в техподдержку, которые нужно разметить по 20 категориям, извлечь тональность и выделить ключевые жалобы. Вы смотрите на прайс-лист: базовая легковесная модель (условный GPT-3.5 или GPT-4o-mini) стоит сущие копейки. Флагманская GPT-4 — в десятки раз дороже. Решение кажется математически очевидным. Вы умножаете средний размер тикета на цену младшей модели, получаете приятную цифру в 50 долларов, утверждаете бюджет у…