Полгода назад мы запустили внутреннего ИИ-ассистента для техподдержки. Архитектура классическая: RAG (Retrieval-Augmented Generation), векторная база, GPT-4o на генерации ответов. Спустя неделю пользователи начали жаловаться: бот галлюцинирует. Мы переписали системные промпты, добавили few-shot примеры, снизили temperature до нуля. Не помогло. Бот продолжал уверенно отвечать невпопад.
В 2023 году индустрию накрыла волна интереса к векторным базам данных. Pinecone, Milvus, Qdrant, Weaviate привлекали сотни миллионов долларов инвестиций. Маркетинговые материалы убеждали инженеров: если вы строите AI-продукт, реализуете семантический поиск или RAG (Retrieval-Augmented Generation), вам жизненно необходим специализированный кластер для хранения эмбеддингов. Реляционные базы объявлялись устаревшим наследием, неспособным справиться с многомерными массивами.
Мы все попались на эту маркетинговую удочку. Сначала 32k казались роскошью, затем 128k стали новой нормой, а сегодня вендоры уверенно заявляют о миллионе токенов в контекстном окне. Реакция индустрии была предсказуема: зачем строить сложные пайплайны поиска, настраивать векторные базы данных (RAG) и подбирать алгоритмы семантического чанкинга? Можно просто сгрузить весь репозиторий, документацию фреймворка и логи за последний месяц в один промпт и написать: «Где баг? Сделай всё хорошо».
Помню свой первый RAG-проект. Мы выгрузили базу знаний компании, прикрутили популярный питоновский фреймворк, нарезали тексты чанками по 1000 токенов, сложили в векторную базу и запустили. На демо в Jupyter Notebook всё выглядело отлично. Бот бодро и уверенно отвечал на вопросы по регламентам.