Распознавание цифровых данных – быстро, легко и удобно: система EasyDoc

Сегодня поговорим о нашей разработке для распознавания цифровых данных. Изначально EasyDoc – это система, помогающая распознавать тексты, но мы развиваем ее как более глобальный продукт. Это платформа, которая позволяет обрабатывать, а затем анализировать информацию. Расскажу подробнее, как это работает и почему вам обязательно стоит присмотреться к EasyDoc.

Появление системы: не было бы счастья…

Система родилась парадоксальным образом: в 2018 году нас подвел один из подрядчиков, а заказчиком была госкомпания. И мы встали перед выбором: расторгнуть контракт, а значит, автоматически попасть в черный список неблагонадежных поставщиков, или… придумать что-то. Мы пошли вторым путем: создали решение, аналогичное уже существующим на рынке продуктам известной российской компании – мирового лидера по поставкам OCR систем распознавания текстов. Разработка собственной системы заняла полгода – такой срок был обозначен в контракте. 

Тогда у нас не было мыслей о создании полноценного продукта, мы просто выполняли работу для заказчика. Разработанная тогда система по сей день успешно функционирует: это PhotoPay. Суть ее очень проста: клиент банка фотографирует счет на оплату, из этого счета извлекаются банковские реквизиты получателя. На их основе создается платежное поручение, по которому со счета клиента списывается нужная сумма. Раньше для оплаты счета клиенту нужно было прийти в банк, отстоять очередь в кассу, предоставить кассиру счет, кассир заносил данные в банковскую систему, создавалось платежное поручение, клиент его подписывал, и только тогда с его счета списывались средства. Теперь клиент просто наводит телефон на счет, фотографирует его, система обрабатывает фотографию, извлекает из нее нужные реквизиты – быстро и легко. Главное отличие нашей системы от других аналогичных в том, что нам абсолютно все равно, где именно на странице располагаются банковские реквизиты: система их найдет, правильно распознает, упакует и отправит в банковскую систему. 

Изначально система предназначалась для физических лиц: например, для облегчения получения пенсии, оплаты коммунальных услуг, и так далее. Затем было принято решение о создании коробочной версии, которую мы назвали EasyDoc PhotoPay. Мы предложили ее нескольким банкам, и они тоже стали ее использовать в работе с юрлицами: в отличие от счетов для физлиц, на счетах для юрлиц нет QR-кодов, которые сами отдают всю информацию без применения дополнительных систем. 

Затем мы создали еще один собственный продукт: EasyDoc ID Reader – систему распознавания паспортных данных. В этом секторе рынка уже было много игроков: помимо мирового лидера это была компания SmartEngines, занимающая 50-60% рынка. Но мы не пасуем перед честной борьбой.

Специализация – это удобно

С помощью нашей системы мы решаем узкоспециализированную задачу. Приведу аналогию: ABBYY – это асфальтоукладчик, но на асфальтоукладчике не всегда удобно возить картошку с дачи в Москву. Для этого есть легковой автомобиль с багажником: загрузился и поехал. Мы не предлагаем решать широкий спектр задач, а решаем одну конкретную проблему, может быть, узкоспециализированную, но не менее важную для бизнеса. И делаем это хорошо! Это так называемая микросервисная архитектура: на выходе каждая наша решаемая задача – это микросервис, который мы упаковываем и предлагаем клиенту. Если ему нужно распознать счета — вот один микросервис, паспорт – другой. И то, и другое – вот, берите оба. Нет необходимости покупать асфальтоукладчик. Таким образом, мы предлагаем более дешевое решение небольшой, но очень важной задачи для наших клиентов. 

Наша система может применяться в любой социальной области: документы необходимо распознавать и при зачислении ребенка в школу, и при записи в поликлинику. В сфере HR нужно собирать персональные данные и сравнивать их между собой: например, сличать информацию в паспорте и дипломе. При оформлении страховки есть задача сверять данные водительского удостоверения с паспортными. 

У нас есть и система, определяющая тип представленного документа – Classificator. При необходимости обработки огромного пакета документов она создает чек-лист, сверяясь с которым, определяет, каких документов не хватает и какие данные в каком-то из документов не совпадают с другими. Она применима везде при проверке комплектности пакета документов, либо при формировании классифицированного архива документов. Classificator «обучен» типизировать массив документов по типам: вот договоры, вот счета-фактуры, вот документы удостоверяющие личность и т.д. Если по каким-то типам документов система не обучена, то достаточно быстро мы, как поставщики решения, готовы ее «дообучить».

На сегодняшний день EasyDoc – это довольно гибкая платформа, которая предоставляет весь инструментарий для создания того собственного распознавания, которое необходимо самому клиенту. Она дает возможность создавать кастомизированные решения под любые типы документов. 

Высокоуровневая архитектура системы EasyDoc

Преимущества EasyDoc

Наша система размещена в реестре отечественного ПО. Сейчас, когда западные производители массово уходят с российского рынка, правительством принято решение о приоритетном выборе информационных систем российской разработки. Это не сильно затрагивает коммерческий сектор (хотя и его тоже: не каждый отечественный бизнес готов и хочет сталкиваться с трудностями развития своей ИТ инфраструктуры), но предприятия с государственным участием обязаны в целях безопасности при закупках отдавать предпочтение продуктам из отечественного реестра. И это затрагивает не только происхождение самого ПО, но и модулей, его составляющих. Например, если какая либо компания декларирует свое ПО, как отечественное, необходимо убедиться в том, что и модули, задействованные в нем, свободны от ограничений распространения в России.

Время внедрения наших систем в общий контур банковских процессов составляет от одного дня до недели, если речь о единичных документах. Это довольно простое решение. Микросервисная архитектура предполагает быстрое внедрение, а на выходе получаются данные, упакованные в формате JSON, с которым легко взаимодействует практически любая система – банковская, бухгалтерская, 1С, система делопроизводства… 

Скорость распознавания данных нашей системой высока. Регламентное время обработки счета – не более 5 секунд. При распознавании паспорта системе необходимо 3-7 секунд. Из судебного приказа данные распознаются и обрабатываются примерно за 2-4 секунды. 

Рисунок 2. Использование системы EasyDoc для извлечения данных из судебного приказа (на рисунке отображены синтетические данные, ничьи персональные данные на данном рисунке не использованы)

Также наши разработки позволяют за счет применения различных технологий искусственного интеллекта максимально улучшать качество данных, получаемых в результате распознавания. В случае обнаружения ошибки в распознавании счета, например, система автоматически исправляет ее, сверяясь с подключенными справочниками для проверки реквизитов. Также в системе работает алгоритм расчета контрольных сумм. В целом процент уверенности распознавания стремится к ста. 

Вдобавок к этому, мы еще в самом начале работы над продуктом решили, что само по себе распознавание не является конечной целью процесса. После того, как документы распознаны, мы учим систему анализировать полученные данные и в некоторых случаях делать из этого выводы, помогающие бизнесу принимать те или иные решения. 

Например, сейчас одним из наших клиентов рассматривается процесс распознавания документов решений судов об арестах счетов должников, на которые банки обязаны реагировать. До нынешнего момента просто не было хороших решений, автоматизирующих эту деятельность – как и в 2018 году, мы набрались смелости, засучили рукава и приступили к делу. 

Задача очень непростая, здесь мы применяем технологии обучения нейросетей, NLP, обработки естественного языка человека, чтобы извлекать данные из таких специфических документов. Данных очень много: кроме паспортных данных должника и номеров его счетов и договоров, учитываются суммы его долгов – включая пени и госпошлины, — предметы залогов: это может быть автомобиль, недвижимость – в частности, квартира по ипотечным кредитам. 

Сложность заключается и в том, что, в отличие от того же счета на оплату, где за словом ИНН или фразой «расчетный счет» следует номер, в решениях суда нужная информация не структурирована и может располагаться абсолютно где угодно. Наша разработка умеет ее извлекать, упаковывать в удобный для сопряжения с другими системами вид и передавать в интегрированные системы – в ту же АБС, автоматизированную банковскую систему, которая уже, согласно регламенту банка, блокирует счета и производит дальнейшие действия. 

На вход наша система получает скан-образ/фотографию судебного решения, извлекает всю нужную информацию и обрабатывает ее, приводя в должный структурированный вид в соответствии с требованием принимающей стороны: например, фамилия, имя и отчество могут встречаться в любом падеже, а в АБС должны поступить обязательно в именительном. И затем передает на принимающую сторону.

Нам интересна задача каждого клиента

Как правило, наши клиенты делятся на два вида:

Первый вид — клиенты с довольно стандартной, уже ранее автоматизируемой нами задачей. Такие клиенты покупают нужный им набор микросервисов и буквально через пару недель начинают использовать систему.

Задачи второго типа клиентов – не стандартны, решений для них еще нет на рынке. Мы внимательно изучаем все тонкости требований и придумываем решение.

Со стороны может показаться, что реализация нестандартных задач должна стоить космических денег – это не всегда так. Благодаря опыту нашей команды, которая до разработки собственного решения реализовала множество проектов на платформах мировых лидеров. Обычно наше предложение оптимально по цене, срокам и простоте реализации.

Если у вас или вашей компании есть мысли об оптимизации затрат на обработку большого массива бумажных или электронных документов, имеется потребность освободить сотрудников от рутинных операций по извлечению данных из документов вручную и направить их энергию на решение более интеллектуальных задач, то вам обязательно нужно обсудить с нами вашу задачу, получить рекомендации по ее решению и несколько вариантов стоимости реализации проекта (наша система лицензирования очень гибкая, всегда можно выбрать вариант, подходящий в каждом конкретном случае).

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: