Ввод документов в СЭД: С чего начать?

Выбор СЭД

Эффективная миграция на электронный документооборот включает пять этапов

В терминологии разработчиков СЭД оцифровка документов носит название “document imaging” (создание цифровых образов документов), и эта функциональность является обязательной для любой современной системы электронного документооборота. К основным стадиям документооборота относятся:

Подготовка документов.
Сканирование.
Контроль качества сканирования.
Ввод документов в СЭД.
Индексация.

Мы сфокусируемся на первом и последнем этапе документооборота.

ПОДГОТОВКА ИНФОРМАЦИИ К ВВОДУ В СИСТЕМУ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА

Подготовка документов включает в себя полный анализ существующих документов, имеющихся в компании. Это наиболее важный и трудоемкий этап документооборота. На этом этапе документы нужно подготовить к сканированию: снять скрепки, удалить лишние наклейки и в целом привести документы в порядок, а также ответить для себя на несколько вопросов:

Какой у вас формат бумаги? Все документы укладываются в стандартный размер A4, или некоторые больше по размеру, а некоторые – меньше? Они односторонние или двухсторонние? Это нужно для того чтобы определить, какой формат устройства автоматической подачи документов требуется для сканирования, и какой вам нужен сканер – симплексный или дуплексный (то есть, сканирующий только одну или обе стороны листа). В норме выбранный сканер должен уметь отсканировать самый большой документ, имеющийся в компании. Существуют специализированные сканеры, способные сканировать большие чертежи, в том числе созданные при помощи средств CAD.
Как выглядят ваши документы? Они все черно-белые или некоторые в цвете? Есть ли на документах пометки маркером, рукописный текст, карандашом или чернилами? Это нужно для того чтобы определить, насколько продвинутая технология распознавания документов вам требуется. Если приобрести ПО, не способное обрабатывать, к примеру, текст, выделенный маркером, то в конечном итоге часть текста просто не распознается, потому что будет слишком светлой или слишком темной.
Какие типы документов вы хотите ввести в СЭД? Это стандартизированные формы – счета-фактуры, заказы на поставку, отчеты о доставке и т.д., или это сложные формы документов с разнообразным содержимым – например, медицинские карты, личные дела сотрудников, досье на клиентов? Это позволит классифицировать документы перед сканированием. Если они стандартные, то можно провести потоковое сканирование без особых усилий. Если форма документов сложная, то потребуется дополнительная настройка ПО для сканирования и распознавания – оно должно идентифицировать, какая категория документов сканируется, по особым параметрам документа. Типичные отметки, сигнализирующие ПО сканера, что пошла новая партия документов – чистые листы, штрих-коды, фиксированное число листов.
Есть ли потребность осуществлять полнотекстовый поиск по документам, которые будут прикреплены к регистрационным карточкам в СЭД? Если да, то крайне важно, чтобы качество сканирования было высоким. ПО для распознавания текста пока еще не дает стопроцентного результата, и качество оцифровки во многом зависит от состояния оригинала документа, разрешения сканера, от использующегося движка распознавания текста, от содержания документа. И потом – умеет ли ваша СЭД осуществлять полнотекстовый поиск по распознанным вложениям? Имеет ли она модуль интеграции с ПО для распознавания текста?
Сколько документов вам нужно отсканировать и насколько быстро? От объема сканируемых документов зависит и то, какой вам подходит сканер, и количество сотрудников, которые будут производить сканирование в заданных временных рамках.

ИНДЕКСАЦИЯ ДОКУМЕНТОВ

Индексация документов требуется для того, чтобы впоследствии эффективно осуществлять поиск нужных документов в СЭД. Как правило, в делопроизводстве под индексацией понимается присвоение документу регистрационного номера и условных обозначений – ключевых слов и аббревиатур, и практически все СЭД, в том числе СЭД ТЕЗИС, поддерживают эту функциональность, предлагая возможности автоматического нумератора. Это, разумеется, способствует стандартизации документов, однако индексация в ее «околокомпьютерном» понимании имеет несколько другое значение и предлагает больше возможностей.

Под индексацией в терминологии IT понимается процесс добавления сведений о существовании некоторой информации в поисковую систему. В системе документооборота ТЕЗИС существует модуль распознавания текста, разработанный в сотрудничестве с ABBYY – признанным лидером российского рынка распознавания отсканированных текстов. Кроме того, платформа Jmix (ex-CUBA Platform), на которой строится СЭД ТЕЗИС, предлагает возможности полнотекстового поиска по загруженным в систему документам – как регистрационным карточкам, так и вложениям.

Автоматизированный ввод документов в СЭД осуществляется посредством интеграции с ABBYY Recognition Server – программным обеспечением, позволяющим осуществлять массированное распознавание документов. Как это работает? Сканированные документы загружаются в карточки СЭД ТЕЗИС как вложения в виде файлов .pdf, .tiff или .png, то есть, в тех форматах, которые получаются на выходе у большинства современных сканеров. Сервер распознавания ABBYY автоматически преобразует изображения в электронные редактируемые форматы – PDF-документ, документ Microsoft Word или файл XML. Затем модуль полнотекстового поиска производит индексацию – попросту говоря, запоминает, что в системе есть такой файл. После добавления вложения делопроизводитель может вносить данные в карточку документа простым копированием распознанного текста из вложения, и ему становится доступен полнотекстовый поиск документа по его содержимому. Техническая деталь: для этого используется популярный движок Apache Lucene.

ЕЖЕДНЕВНОЕ СКАНИРОВАНИЕ

Сказанное выше относится и к ежедневным задачам по сканированию бумажных документов. Однако рутинное сканирование не требует столь тщательной подготовки, как оцифровка архива. Если объем документов, сканируемых ежедневно, большой (>500 листов), то наиболее эффективным будет потоковое сканирование.

Ежедневное сканирование также сильно зависит от источника документов. Если документы генерируются внутренними системами, то возможно облегчить процесс ввода в СЭД путем настройки печати штрих-кодов на документах. Это позволит автоматически регистрировать карточку документа путем считывания штрих-кода, при условии наличия соответствующего аппаратного обеспечения.

Для бумажных документов из внешних источников, как правило, штрих-коды печатаются в виде наклеек. СЭД ТЕЗИС поддерживает печать двух видов кодов, широко применяющихся на территории России – штрих-кода и QR-кода.