Статья · RAG · приватность
RAG-бот на локальной языковой модели
Ответы по вашим документам без отправки текста в публичные API. Разбираем стек, ограничения и когда локальный LLM оправдан.
RAG (Retrieval-Augmented Generation) — бот сначала ищет фрагменты в вашей базе знаний (регламенты, FAQ, прайс), потом формулирует ответ. Локальная LLM крутится на вашем ПК или сервере через LM Studio, Ollama или vLLM — запросы не уходят в OpenAI.
Кому нужен локальный стек
- Юристы, медицина, внутренние регламенты — данные не должны покидать контур.
- B2B с NDA и договором о персональных данных.
- Компании без стабильного доступа к зарубежным API.
Типовая схема
- Документы → чанки → векторная база (Chroma, Qdrant).
- Клиент пишет в Telegram → бот ищет релевантные куски.
- Локальная модель генерирует ответ с цитатой источника.
- Сложный вопрос → эскалация менеджеру через n8n.
Ограничения
Нужно железо (GPU желательно), админка и обновление базы при смене прайса. Качество ниже топовых облачных моделей, но для FAQ и внутренней поддержки часто достаточно. Галлюцинации снижаются жёстким промптом «отвечай только по контексту».
Стоимость внедрения
Проект AI-бот с RAG — от 60 000 ₽: индексация документов, бот, тесты на реальных вопросах. Облачный вариант дешевле на старте, локальный — дороже на настройке, дешевле на абонентке API.