Поиск
sale@tezis-doc.ru

Векторный поиск и RAG в СЭД: что это такое и как оценить до выбора системы

Функциональность
Векторный поиск и RAG в СЭД

Сегодня почти каждый вендор корпоративных систем заявляет о поддержке искусственного интеллекта. В описаниях продуктов часто встречаются термины «семантический поиск», «RAG», «генеративный ИИ», «агентные технологии» и «векторный поиск». За одинаковыми формулировками могут скрываться совершенно разные решения: где-то это действительно работа с корпоративным контентом и документами, а где-то лишь улучшенный поиск по ключевым словам.

Специалисты СЭД ТЕЗИС разработали чек-лист оценки ИИ-функциональности в корпоративных системах. Он включает 36 критериев, которые помогают проверить решение прямо во время демонстрации и сравнить его с другими системами. Ниже подробно разбираем один из таких критериев: возможности векторного поиска и RAG в СЭД. Рассмотрим, как работают эти технологии, почему они важны для документооборота и какие вопросы стоит задать поставщику на демонстрации.

Почему поисковые возможности стали отдельным критерием оценки ИИ в СЭД

Еще несколько лет назад поиск в СЭД воспринимался как вспомогательная функциональность: ввел название или номер документа и получил результат. Этого хватало, пока объем документооборота был не таким обширным. Пользователь вводил название документа или несколько ключевых слов и получал список результатов.

Сегодня ситуация другая: документов больше, они разнороднее, пользователи все чаще ищут не конкретный файл, а информацию: ответ на вопрос, прецедент, аналогичное решение. И здесь классический полнотекстовый поиск начинает ощутимо проигрывать.

Поэтому возможности поиска были выделены в отдельный блок критериев оценки ИИ-функциональности. Именно по ним часто становится понятно, насколько ИИ-решение в СЭД зрелое.

Что такое векторный поиск и как он работает

Традиционный полнотекстовый поиск ищет совпадение слов и фраз. Предположим, сотрудник ищет информацию по запросу «договор аренды склада». Если в документе используются формулировки «договор временного пользования помещением» или «соглашение об аренде производственных площадей», обычный поиск может не показать нужный результат.

Полнотекстовый поиск без ковычек Полнотекстовый поиск без ковычек

Векторный поиск работает иначе. Текст документов и поисковых запросов преобразуется в специальные числовые представления — эмбеддинги. С их помощью система анализирует не совпадение конкретных слов, а смысловую близость между запросом и содержимым документа. В результате пользователь может найти нужную информацию даже в том случае, если в документе используются другие формулировки.

Для корпоративного документооборота это принципиально: документы создаются разными людьми, в разных подразделениях, по разным шаблонам — одно и то же понятие может называться по-разному. Подробнее о том, как устроен векторный поиск, можно прочитать в документации Qdrant — одной из популярных векторных баз данных для хранения и поиска по эмбеддингам. Хранятся эти векторы в специализированных векторных базах данных. Наиболее распространенные на российском рынке варианты: PG Vector (расширение PostgreSQL), Milvus и Qdrant. Что именно использует вендор стоит уточнять отдельно: от выбора базы данных зависит и производительность, и возможность развернуть все в закрытом контуре.

1.1 Семантический поиск ИИ пример №1 1.1 Семантический поиск ИИ пример №2

Что такое RAG и как это работает в СЭД

RAG (Retrieval-Augmented Generation) — технология, которая объединяет поиск по документам и возможности языковой модели.

Процесс выглядит следующим образом:

  1. Пользователь задает вопрос на естественном языке.
  2. Система выполняет поиск по корпоративным данным.
  3. Находит наиболее релевантные фрагменты документов.
  4. Передает найденный контекст языковой модели.
  5. Формирует ответ на основе документов организации.

В результате пользователь получает информацию, основанную на документах компании, загруженных в систему.

Практический пример: сотрудник спрашивает: «Какой порядок согласования договоров с иностранными контрагентами?». Без RAG языковая модель ответит на основе своих общих знаний, возможно, неточно или вообще не применимо к конкретной компании. С RAG система найдет нужный регламент в загруженных документах и сформирует ответ именно по нему.

Агентный поиск

Три уровня поиска в современных СЭД: как оценить, на каком этапе находится система

Для оценки поисковых возможностей удобно выделить три уровня зрелости. Они отличаются не только технически, но и по практической пользе для сотрудника.

Первый уровень сегодня есть практически в любой СЭД. Семантический поиск постепенно становится базовой функциональностью системы. А агентный является более современным уровнем поиска.

Агентный поиск — это режим работы, в котором система не просто ищет документы, а выполняет заданное действие по запросу. Например, пользователь пишет «покажи документы на согласовании», и система сразу открывает нужный раздел. Или сотрудник сформулировал запрос так: «Подготовь список задач в работе», и агент формирует подборку.

Как проверить векторный поиск и RAG на демонстрации

При разработке чек-листа оценки ИИ-функциональности специалисты СЭД ТЕЗИС исходили из принципа: любой критерий должен иметь понятный сценарий проверки.

Ниже приведены примеры таких сценариев.

Проверьте семантический поиск

Попросите выполнить поиск по запросу, в котором нет точных слов из документов. Например:

  • «найди похожее обращение»;
  • «покажи договоры с иностранными контрагентами»;
  • «найди документы по закупке офисного оборудования».

Если нужные результаты находятся даже без точных совпадений, семантический поиск в системе действительно работает. Если нет, то в этом решении есть только полнотекстовый поиск. Дополнительно уточните: какая векторная база поиска используется, где хранятся эмбеддинги и можно ли развернуть все локально без подключения к внешним сервисам.

Проверьте RAG-функциональность

Попросите систему ответить на вопрос по внутренним документам компании, например, по регламенту или конкретному справочнику.

Оцените три вещи:

  • Система отвечает на основе документов или придумывает ответ?
  • Показывает ли она источники, конкретные документы, на которые опиралась при ответе?
  • Можно ли перейти к первоисточнику одним кликом?

Если ответ приходит без ссылки на документ, то стоит прямо спросить: используется ли здесь RAG или ответ формирует модель без привязки к корпоративной базе.

Проверьте разграничение доступа

Это один из наиболее важных пунктов для повышения информационной безопасности. Попросите показать результаты одного и того же запроса для двух пользователей с разными правами. Пользователь должен получать ответы только на основе тех документов, к которым у него есть доступ.

Если ограничения настроены неправильно, это создает прямой риск для безопасности системы: через чат-бот можно случайно получить доступ к конфиденциальным данным, к которым у сотрудника формально нет прав. Подробнее про безопасность при работе с ИИ в СЭД можно почитать здесь.

Проверьте агентный поиск

Напишите в чат-бот несколько команд:

  • «покажи документы на согласовании»;
  • «открой задачи в работе»;
  • «подготовь список договоров, у которых истекает срок действия».

Оцените, выполняет ли система эти действия самостоятельно или просто возвращает список документов. Разница между тем, показала система просто список или открыла нужный экран в системе, принципиальная с точки зрения пользовательского опыта.

Инфраструктура: локально или в облаке

При оценке поискового блока важно учитывать способ поставки системы: для многих организаций передача данных во внешние сервисы недопустима. Государственный сектор, финансовые компании, организации с повышенными требованиями к безопасности: для них работа в закрытом контуре, т.е. локально, обязательна.

На демонстрации стоит уточнить:

  • Можно ли развернуть векторную базу данных локально?
  • Где выполняется построение эмбеддингов: внутри контура или через внешний API?
  • Нужна ли передача данных во внешние ресурсы хотя бы на одном шаге?

Если вам ответят, что все процессы происходят локально, попросите показать схему архитектуры или хотя бы список сервисов, к которым обращается система при поисковом запросе.

Как векторный поиск и RAG реализованы в СЭД ТЕЗИС

В модуле ИИ СЭД ТЕЗИС и ИИ-ассистенте поисковые возможности строились с учетом тех же критериев, которые описаны выше. Семантический поиск в системе работает на основе векторных эмбеддингов. Система поддерживает несколько векторных баз данных: PG Vector, Milvus и Qdrant. Выбор зависит от инфраструктурных требований заказчика.

При формировании результатов учитываются права доступа пользователя: ответы строятся только на основе тех документов, к которым у него есть доступ.

Развернуть функциональность можно локально, без подключения к внешним облачным сервисам. Это важно для организаций, которые работают в закрытом контуре.

Агентный поиск позволяет не только искать документы, но и выполнять действия в системе с помощью обычного запроса: открывать нужные разделы интерфейса, формировать подборки, работать с системой через текстовые команды.

Полный чек-лист оценки ИИ-функциональности в СЭД

Векторный поиск и RAG — один из разделов чек-листа. Помимо него, документ охватывает:

  • автоматизацию на основе ИИ (no-code конструктор, фоновые агенты, интерактивная автоматизация);
  • извлечение реквизитов из документов;
  • работу с языковыми моделями (локальные и облачные, российские и зарубежные);
  • голосовое управление;
  • безопасность ИИ-сценариев;
  • дополнительные возможности для организаций, которые строят собственные ИИ-решения поверх корпоративной системы.

Каждый критерий содержит описание и конкретный сценарий проверки, который можно использовать прямо во время демонстрации.

Критерии для проверки ИИ в СЭД
Скачайте чек-лист оценки ИИ-возможностей: 36 критериев, чтобы сделать правильный выбор и узнать обо всех подводных камнях

FAQ

Что такое RAG в СЭД?

RAG (Retrieval-Augmented Generation) — технология, при которой языковая модель формирует ответы не из общих знаний, а на основе документов, найденных в корпоративной базе. Это позволяет получать ответы по внутренним регламентам, договорам и другим материалам организации.

Чем векторный поиск отличается от обычного поиска в СЭД?

Обычный поиск ищет совпадения конкретных слов и фраз. Векторный поиск анализирует смысл запроса и находит документы даже при отсутствии прямых совпадений. Например, «аренда помещений» и «договор временного пользования площадями» система найдет как семантически близкие.

Как проверить качество RAG на демонстрации?

Задайте системе вопрос по внутреннему документу организации и проверьте, показывает ли система источник ответа. Возможность перейти к первоисточнику одним кликом — признак того, что RAG реализован правильно, а не имитируется ответом языковой модели.

Что такое агентный поиск?

Агентный поиск позволяет не только находить информацию, но и выполнять действия в системе через запросы на естественном языке: открывать разделы интерфейса, формировать подборки документов, запускать процессы. Фактически это управление СЭД через текстовые команды.

Можно ли использовать векторный поиск в закрытом контуре?

Да, если система поддерживает локальное развертывание векторной базы данных и моделей эмбеддингов без передачи данных во внешние сервисы.

Что такое эмбеддинги и зачем они нужны?

Эмбеддинги — числовые представления текстовых фрагментов, которые кодируют их смысл. Семантически близкие тексты имеют похожие числовые векторы, что и позволяет искать по смыслу, а не по словам.

Заказать
демонстрацию
системы ТЕЗИС

В удобное для вас время наш лучший специалист удаленно или в вашем офисе продемонстрирует возможности системы
Удаленная презентация системы ТЕЗИС