RAG-бот на локальной LLM — без облака

RAG (Retrieval-Augmented Generation) — бот сначала ищет фрагменты в вашей базе знаний (регламенты, FAQ, прайс), потом формулирует ответ. Локальная LLM крутится на вашем ПК или сервере через LM Studio, Ollama или vLLM — запросы не уходят в OpenAI.

Кому нужен локальный стек

Юристы, медицина, внутренние регламенты — данные не должны покидать контур.
B2B с NDA и договором о персональных данных.
Компании без стабильного доступа к зарубежным API.

Типовая схема

Документы → чанки → векторная база (Chroma, Qdrant).
Клиент пишет в Telegram → бот ищет релевантные куски.
Локальная модель генерирует ответ с цитатой источника.
Сложный вопрос → эскалация менеджеру через n8n.

Ограничения

Нужно железо (GPU желательно), админка и обновление базы при смене прайса. Качество ниже топовых облачных моделей, но для FAQ и внутренней поддержки часто достаточно. Галлюцинации снижаются жёстким промптом «отвечай только по контексту».

Стоимость внедрения

Проект AI-бот с RAG — от 60 000 ₽: индексация документов, бот, тесты на реальных вопросах. Облачный вариант дешевле на старте, локальный — дороже на настройке, дешевле на абонентке API.

RAG-бот на локальной языковой модели

Кому нужен локальный стек

Типовая схема

Ограничения

Стоимость внедрения

Нужен приватный RAG-бот?