RAG, который работает: Как перестать кормить…

Помню свой первый RAG-проект. Мы выгрузили базу знаний компании, прикрутили популярный питоновский фреймворк, нарезали тексты чанками по 1000 токенов, сложили в векторную базу и запустили. На демо в Jupyter Notebook всё выглядело отлично. Бот бодро и уверенно отвечал на вопросы по регламентам.

Потом мы выкатили это в продакшен.

Пользователи начали задавать реальные, неидеально сформулированные вопросы. Бот начал галлюцинировать, путать версии документов и выдавать несуществующие инструкции. Иногда он извинялся и говорил, что информации нет, хотя нужный абзац лежал в базе. Мы столкнулись с классической проблемой: мы кормили нейросеть мусором, и она возвращала нам красиво упакованный, грамматически безупречный мусор.

Базовый RAG (Retrieval-Augmented Generation) мертв. Точнее, он никогда и не работал за пределами тепличных условий туториалов. Если вы просто берете текст, режете его бензопилой на куски равной длины, прогоняете через дешевую модель эмбеддингов и скармливаете топ-5 результатов языковой модели — вы строите генератор случайных чисел, а не корпоративную систему.

Давайте разберем, где ломается базовый пайплайн и как собрать архитектуру, за которую не будет стыдно перед бизнесом.

Анатомия мусорного контекста

Почему нейросеть ошибается? Потому что векторный поиск слеп. Косинусное расстояние измеряет семантическую близость, но не смысловую точность.

Проблема 1: Слепой чанкинг. Представьте, что вы разрезали книгу пополам ровно на середине предложения. Базовый сплиттер делает именно это. Он разрывает контекст. Условие «Если клиент VIP, то..» остается в одном чанке, а само действие «..предоставить скидку 20% и бесплатную доставку» — в другом. Векторный поиск находит второй чанк по запросу «скидка», и LLM радостно раздает 20% всем подряд, игнорируя статус клиента.

Проблема 2: Эффект «Затерянные в середине» (Lost in the Middle). От жадности инженеры часто пихают в контекст LLM 20 или 30 чанков. «Пусть нейросеть сама разберется». Суровая практика показывает: современные модели отлично помнят начало и конец промпта, но катастрофически слепнут в середине. Чем больше нерелевантных кусков вы достали из базы, тем выше шанс, что правильный ответ утонет в информационном шуме.

Проблема 3: Хрупкость инфраструктуры. Для хорошего RAG вам нужна модель для перефразирования запроса (маленькая и быстрая), модель для эмбеддингов (точная), кросс-энкодер для реранжирования и мощная LLM для финального ответа. Поддерживать этот зоопарк API-ключей, балансировать нагрузку и писать фоллбеки для каждого провайдера — настоящий ад для бэкенд-разработчика.

Собираем RAG здорового человека

Чтобы система работала стабильно, нужно перестать относиться к RAG как к магии промптов и начать относиться как к жесткой задаче инженерии данных.

1. Семантический чанкинг и обогащение метаданными

Хватит резать текст по количеству символов. Используйте парсеры, которые понимают структуру документа (Markdown, HTML, PDF). Чанк должен представлять собой логическую единицу: абзац, раздел, таблицу целиком.

Каждому чанку необходимо приклеить жесткие метаданные: дату создания, ID документа, уровень доступа, теги категорий. Это позволит фильтровать мусор еще до векторного поиска. Запрос «Как оформить отпуск в 2024 году?» должен на уровне базы данных отсечь все регламенты за 2023 год через фильтр метаданных, и только потом искать векторы.

2. Гибридный поиск (Hybrid Search)

Векторный поиск отвратительно ищет точные совпадения — артикулы товаров, специфические аббревиатуры, редкие фамилии. Традиционный полнотекстовый поиск (BM25) плох в понимании синонимов и контекста. Решение? Использовать оба. Вы достаете 50 кандидатов векторным поиском и 50 кандидатов по BM25, а затем объединяете результаты через алгоритм Reciprocal Rank Fusion (RRF).

3. Реранжирование (Re-ranking)

Полученная сотня чанков всё еще содержит много мусора. Здесь вступает в игру кросс-энкодер (Re-ranker). Это специализированная модель, которая не генерирует текст, а оценивает релевантность пары «запрос-документ». Она читает запрос пользователя и каждый из 100 чанков, выставляя им оценку от 0 до 1. Вы отсекаете всё, что ниже порога уверенности, и оставляете топ-3 или топ-5 действительно бронебойных кусков текста. Только они отправятся в финальную LLM.

Инфраструктурный паралич и единый шлюз

Посмотрите на получившуюся архитектуру. На один пользовательский запрос ваша система делает несколько обращений к разным нейросетям. Вы используете OpenAI для эмбеддингов, Cohere для реранжирования и Anthropic Claude для финальной генерации.

Завтра API OpenAI ложится от нагрузки. Послезавтра выходит новая модель, которая дешевле в два раза, но требует переписывания клиента. Писать логику переключения провайдеров, обрабатывать таймауты, лимиты (Rate Limits) и ошибки сети внутри бизнес-логики приложения — верный путь к техническому долгу. Ваш красивый код быстро превратится в нечитаемую лапшу из try/catch и бесконечных if/else.

Здесь на сцену выходит концепция единого шлюза. В нашем случае мы решаем эту проблему через RouterAPI.

Суть RouterAPI для внешнего разработчика сводится к одной прагматичной идее: отвяжите бизнес-логику от конкретных AI-провайдеров.

Вместо того чтобы жонглировать десятком SDK от разных компаний, вы отправляете все запросы — будь то генерация эмбеддингов, классификация интента или вызов тяжелой LLM — в единую точку входа по стандартному протоколу.

Как RouterAPI спасает RAG-пайплайн в продакшене:

Мгновенная горячая замена моделей. Вы поняли, что text-embedding-3-small не справляется с вашей специфической юридической терминологией? Вы просто меняете название модели в конфигурации вызова RouterAPI на условный voyage-law-2 или локально развернутый bge-m3. Код вашего приложения не меняется ни на строчку. Формат запроса и ответа остается строго стандартизированным.
Встроенные фоллбеки (Fallbacks) без боли. RAG-система не должна отвечать пользователю ошибкой, если API провайдера вернуло 502 Bad Gateway или вы уперлись в лимиты токенов. RouterAPI позволяет настроить прозрачный каскад: если основная LLM недоступна или тормозит, запрос автоматически и бесшовно уходит к резервной модели со схожими характеристиками. Пользователь получает ответ, а вы — спокойный сон.
Единый контроль лимитов и бюджетов. Когда пайплайн делает десятки скрытых запросов под капотом (перефразирование, саммаризация истории, финальный ответ), легко вылететь за лимиты или незаметно сжечь бюджет проекта. Единый шлюз дает прозрачную аналитику: вы точно знаете, сколько токенов ушло на подготовку контекста, а сколько — на генерацию финального ответа.
Унификация форматов. Вам не нужно помнить, как выглядит структура JSON для вызова Claude 3.5 Sonnet, а как — для GPT-4o. Вы используете привычный OpenAI-совместимый формат для всех моделей в мире. Шлюз сам транслирует запросы в нужные диалекты провайдеров.

Инженерия вместо магии

Рабочий RAG — это не скрипт на сто строк, скачанный с GitHub. Это суровый инженерный конвейер, где каждый этап безжалостно отсеивает информационный шум и повышает плотность полезного сигнала.

Перестаньте надеяться на слепой векторный поиск и магию промптов. Внедряйте семантический чанкинг, гибридный поиск и обязательное реранжирование. А чтобы эта сложная, многокомпонентная архитектура не погребла под собой вашу команду разработки, выносите всю боль маршрутизации, балансировки и обработки ошибок на уровень единого шлюза вроде RouterAPI.

Только выстроив надежный фундамент из качественных данных и отказоустойчивой инфраструктуры, вы перестанете кормить нейросеть мусором и начнете получать от нее реальную бизнес-ценность.

RAG, который работает: Как перестать кормить нейросеть мусором