Статья · RAG · приватность

RAG-бот на локальной языковой модели

Ответы по вашим документам без отправки текста в публичные API. Разбираем стек, ограничения и когда локальный LLM оправдан.

RAG (Retrieval-Augmented Generation) — бот сначала ищет фрагменты в вашей базе знаний (регламенты, FAQ, прайс), потом формулирует ответ. Локальная LLM крутится на вашем ПК или сервере через LM Studio, Ollama или vLLM — запросы не уходят в OpenAI.

Кому нужен локальный стек

Типовая схема

  1. Документы → чанки → векторная база (Chroma, Qdrant).
  2. Клиент пишет в Telegram → бот ищет релевантные куски.
  3. Локальная модель генерирует ответ с цитатой источника.
  4. Сложный вопрос → эскалация менеджеру через n8n.

Ограничения

Нужно железо (GPU желательно), админка и обновление базы при смене прайса. Качество ниже топовых облачных моделей, но для FAQ и внутренней поддержки часто достаточно. Галлюцинации снижаются жёстким промптом «отвечай только по контексту».

Стоимость внедрения

Проект AI-бот с RAG — от 60 000 ₽: индексация документов, бот, тесты на реальных вопросах. Облачный вариант дешевле на старте, локальный — дороже на настройке, дешевле на абонентке API.

Нужен приватный RAG-бот?

Услуга: RAG-ботКонтакты