Автоматизация распознавания документов и обработки распознанных данных на основе решения Kofax Transformation Modules

Автор: Окольнов Юрий Викторович, Поддубный Михаил Александрович, Тятюшкина Ольга Юрьевна

Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse

Статья в выпуске: 2, 2016 года.

Бесплатный доступ

В данной статье описана технология Kofax Transformation Modules компании Kofax, которая позволяет автоматизировать и ускорить распознавание и проверку деловой документации при ее потоковом сканировании.

Распознавание, автоматизация обработки, деловая документация

Короткий адрес: https://sciup.org/14122637

IDR: 14122637

Текст научной статьи Автоматизация распознавания документов и обработки распознанных данных на основе решения Kofax Transformation Modules

HYBRID COGNITIVE CONTROL SYSTEMS ON EXAMPLE OF CONTROL VEHICLE2

Ulyanov Sergey 1, Reshetnikov Andrey 2, Mamaeva Alla3, Skotnikov Stanislav4

1Doctor of Science in Physics and Mathematics, professor;

Dubna State University,

Institute of the system analysis and management;

141980, Dubna, Moscow reg., Universitetskaya str., 19;

2Assistant

Dubna State University,

Institute of the system analysis and management;

141980, Dubna, Moscow reg., Universitetskaya str., 19;

3Student;

Dubna State University,

Institute of the system analysis and management;

141980, Dubna, Moscow reg., Universitetskaya str., 19;

4Student;

Dubna State University,

Institute of the system analysis and management;

141980, Dubna, Moscow reg., Universitetskaya str., 19;

Введение: Проблемы когнитивного и интеллектуального управления

До настоящего времени в теории и процессах проектирования интеллектуальных систем управления (ИСУ), как систем управления, основанных на знаниях (в виде соответствующих баз знаний (БЗ)), проектирование самих БЗ осуществлялось экспертом или на основе интеллектуальных вычислений типа мягких вычислений с применением генетических алгоритмов или нечетких нейронных сетей. Роль самого человека-оператора в контуре управления не учитывалась в явном виде, либо описывалось передаточными функциями упрощенного типа. Само включение человека-оператора в контур управления часто рассматривалось как источник возникновения нештатных ситуаций или возрастания информационного риска от принятия решения. При этом сравнительно давно установлено [1], что в контуре управления больших многоконтурных связанных систем управления до 75% информации часто бывает избыточное количество, которое не используется или мешает принятию решения. Поэтому одной из центральных проблем разработки ИСУ являлась поиск конструктивного решения задачи проектирования БЗ в заданной проблемно-ориентированной области применения.

Однако когнитивные способности человека-оператора (включая такие как интуиция, инстинкт и эмоции) принятия решения в сложных ситуациях являются одновременно информационным ресурсом, позволяющий повысить эффективность разработки и применения ИСУ. Экспериментальные исследования коры головного мозга и поведенческих реакций человека-оператора подтвердили гипотезу о взаимосвязи электрического возбуждения отдельных участков коры головного мозга (нейронов или группы нейронов) с определением и прогнозом поведения человека-оператора.

Таким образом, возникла необходимость и возможность применения когнитивных процессов головного мозга человека-оператора в виде дружелюбного интерфейса «мозг – компьютер» с целью повышения эффективности интеллектуального управления для гарантированного достижении цели управления в условиях неопределенности, нештатных ситуаций и возрастающего информационного риска.

Цель данной работы – экспериментально показать возможности эффективного применения когнитивного интерфейса («мозг – компьютер – исполнительное устройство») на примере управления транспортным средством (мобильным роботом), раскрыть современные технологии управления и показать роль и необходимость применения интеллектуальных вычислений в работе интерфейса «мозг – компьютер» для повышения надежности и робастности системы управления.

Структурная схема процесса проведения эксперимента представлена на рис. 1.

Рис. 1. Схема эксперимента

В частности, в работе рассмотрена возможность управления движением объекта (вперед, назад, влево, вправо, обхода препятствий) посредством когнитивного шлема, используя стандартный блок распознавания команд и различные типы систем управления, в том числе на основе мягких вычислений.

Для снятия сигнала о мозговой активности использовался когнитивный шлем Emotiv EPOC + (рис. 2) совместно с поставляемым программным обеспечением ( EPOC Control Panel ).

Рис. 2. Функциональная схема применения нейрокомпьютерного интерфейса (НКИ) (слева) и когнитивный шлем Emotiv EPOC+

Программное обеспечение включает в себя блок записи и распознавания ментальных команд, формируемых оператором. EPOC имеет 14 электродов, которые являются пассивными сенсорами, позволяющими регистрировать электромагнитные сигналы и передавать их дальше по каналу Bluetooth на компьютер для обработки. Электроды крепятся на поверхности кожи (не погружной, неинвазивный интерфейс) и требуют смачивания специальной жидкостью для лучшего контакта так называемый «мокрый» интерфейс.

Структурно Emotiv EPOC + состоит из 14 каналов AF 3 , F 7, F 3, FC 5, T 7, P 7, O 1, O 2, P 8, T 8, FC 6, F 4, F 8, AF 4 (плюс CMS/DRL и P 3 / P 4).

Для метода отбора проб используется последовательная выборка. Частота выборки 128 выборок в секунду (внутренний 2048 Гц). Разрешение 14 бит. Пропускная способность 0,2 – 45 Гц, цифровая вырезка фильтров при 50 Гц и 60 Гц. Имеется дополнительная фильтрация встроенным цифровым фильтром.

Поставляемое программное обеспечение позволяет получать, распознавать и регистрировать ЭЭГ сигнал со шлема, ментальные команды и назначать на них определенные действия (например, посылать управляющий сигнал на Bluetooth -устройство для движения автономного робота вперед, назад, влево и вправо).

Обучение ментальной команде заключается в записи состояния покоя и состояний, когда субъект представляет образ какого-либо действия, концентрируя мозговую активность в определенном участке мозга. Запись таких состояний занимает 8 секунд.

На рис. 3 показан пример ЭЭГ сигнала, а также схема расположения электродов когнитивного шлема.

Рис. 3. Слева сигнал ЭЭГ с электродов EРОС. Справа схема расположения электродов на голове

На рис. 4 представлено расположение электродов в соответствии с функциональными областями головного мозга [2 – 4].

Обучение оператора проходит следующим образом: на оператора надевается шлем и через специальное программное обеспечение записывается сигнал его «нейтрального состояния» (состояние покоя), далее, записывается сигнал ментальной команды. Для этого оператор наблюдает объект управления и генерирует ментальную команду для его движения в нужном направлении, концентрируя внимание и возбуждая определенные участки головного мозга (лобную, затылочную или височные доли). Принципиальной значимости, возбуждение какого участка мозга с какой командой, связывать нет необходимости. С точки зрения системы управления, оператор должен быть способен вновь генерировать записанные сигналы, которые интерпретируются системой управления для управления движением устройства. Для каждой ментальной команды записывался индивидуальный сигнал, другими словами, записывая сигнал движения вперед оператор возбуждает лобную долю мозга, для команды назад – затылочную и т.д. (см. рис. 4).

Рис. 4. Функциональные зоны головного мозга

Одной из основных компонент технологии когнитивного нейроинтерфейса являются игровые тренажеры. Важно отметить, что в случаи тренировки, в качестве объекта управления выступает модель системы на экране монитора, это, в свою очередь позволяет не только тренировать мозг на генерацию ментальных команд, но и настраивать систему управления самого объекта управления подстраивая ее под оператора, для повышения эффективности работы в системе «мозг - компьютер». Такого рода особенность обусловлена тем, что как человек учится работы со шлемом, так и сама программа должна подстраивается под особенности человека, настраивая систему управления.

Качество распознавания команд разработчики такого оборудования обычно связывают с уровнем подготовки оператора генерировать различные ментальные команды. В комплекте программного обеспечения поставляются специализированные игры - тренажеры, в которых проходит процесс обучения и тренировки. Обычно, для этого используют компьютерные игры, где оператор должен провести действие, которое будет ассоциироваться у системы с некой командой, используемой для управления объектом. Играя, оператор развивает свой навык работы со шлемом, что в дальнейшем дает возможность управлять и реальными техническими устройствами (манипуляторами, инвалидными креслами и др. устройствами).

На рис. 5 представлены программные игры тренажеры - слева программа тетрис, в которой оператору предлагается тренировка команд вправо и влево, а также переключение между формами, справа программа Spirit Mountain , в которой оператор тренирует команды вперед, назад, влево, вправо, верх, вниз, управляя персонажем в виртуальном мире [5].

Рис. 5. Программные игры в пакете EPOC

В зависимости от количества ментальных команд, которые необходимо распознать, тренировки делятся по уровням сложности и по виду воздействия на мозг оператора. Тренировки могут быть активными - с внешними раздражителями, например, свет определенной частоты, видео- и аудио- материал, картинки и т.д., и пассивными, если в процессе генерации ментальной команды оператор представляет ее без внешнего воздействия. Срок тренировок и интенсивность занятий влияет на качество и количество распознавания ментальных команд. Если с первого раза человек может научиться формировать сигналы в мозге для одной команды, то для хорошего распознавания двух и более команд необходимо несколько тренировок.

Соответственно на систему управления и достижение цели управления будет влиять как психофизиологические особенности состояния человека (в том числе и его положение в пространстве), так и его уровень подготовки. Обычно (по информации от производителя) для хорошей работы системы с использованием четырех команд, необходимо проводить регулярные тренировки 2 - 3 недели, причем после тренировки оператор испытывает усталость, соответственно требуется время для восстановления сил.

На рис. 6 изображены ЭЭГ, снятые в нейтральном состоянии и в состоянии, когда оператор представляет образ движения вперед.

Рис. 6. ЭЭГ без ментальной команды (нейтральное состояние) и ЭЭГ с ментальной командой (вперед)

Обычно, для оценки и распознавания сигналов используются статистические методы, в том числе подсчет дисперсии и математического ожидания. На рис. 7 представлена таблица, в которой выделены наиболее отличные друг от друга сигнала, ассоциируемые у оператора с движением вперед и нейтральным состоянием.

FC5

FC6

О1

02

Р7

Р8

Т7

Т8

Нейтральное

126, бб

3459,63

2108,80

3791,51

2940,07

3757,97

3768,52

2523,59

103,47

4201,47

1644,94

3894,85

3072,52

3129,58

3455,78

1613,89

Вперед

Рис. 7. Дисперсии сигналов во время нейтрального состояния и с ментальной командой.

В таблице выделены наиболее отличные друг от друга сигнала, ассоциируемые у оператора с движением вперед и нейтральным состоянием. Дисперсии сигналов, формируемых оператором, довольно простой и эффективный метод сравнения сигналов ментальных команд. Дополнительные различные методы хорошо описаны в [2]. На рис. 7 видно, что на электродах FC 6, T 8 и Р 8 разница дисперсии сигналов наиболее существенна. Это дает основание программы классифицировать сигнал.

На рис. 8 показано расположение этих электродов.

Рис. 8. Электроды с наибольшей разницей дисперсии

Важно отметить, что в случае тренировки, в качестве объекта управления выступает модель системы на экране монитора, это, в свою очередь позволяет не только тренировать мозг на генерацию ментальных команд, но и настраивать систему управления самого объекта управления для повышения эффективности работы в системе мозг – компьютер. Такого рода особенность обусловлена тем, что как человек учится работы со шлемом, так и сама программа должна подстраивается под особенности человека, настраивая систему управления.

Структуры когнитивных регуляторов

Одной из задач данной работы – сравнить различные регуляторы для управления транспортным устройством с использованием когнитивного шлема, оценить возможность использования методов и средств интеллектуальных вычислений и оптимизатора баз знаний на мягких вычислениях для повышения надежности и эффективности работы бортовой системы управления.

Обычно, в качестве системы управления на объекте устанавливают регулятор, который в зависимости от ментальных команд оператора вырабатывает управляющее воздействие для исполнительных механизмов. В качестве такого регулятора может выступать, например, простой релейный регулятор, где для конечного множества выходных команд (вперед, назад, влево, вправо) вырабатываются одни и те же, постоянные управляющие воздействия.

В качестве проверяемых регуляторов в работе использовались:

Пропорциональный регулятор.

Структура такой системы управления основана на принципе реле и выработке управляющего воздействия пропорционально величине распознанного сигнала. От блока распознавания, значения выходных сигналов поступают в диапазоне от -1 до +1. Количество выходов блока распознавания равно количеству записанных команд. Для нашей задачи это были команды вперед, назад, влево, вправо. Движение устройства начинается, когда выход с блока распознавания сигнала становится больше (или меньше) определенного заданного порога, а направление движения определяется знаком выходного значения, причем скорость движения (управляющее воздействие) пропорциональна выходной величине с блока распознавания. Таким образом, для команд «движение вперед» и «движение назад» был выбран диапазон от 1 до -1 соответственно.

Структурная схема системы представлена на рис. 9.

Блок распознавания сигнала

Рис. 9. Структурная схема пропорционального регулятора в контуре когнитивного управления

Блок распознавания сигнала поставляется совместно с используемым оборудованием и интегрируется в виде библиотеки в среду разработки.

Пропорционально-интегральный (ПИ)-регулятор с блоком нечеткого вывода.

В данной структуре выходные данные с блока распознавания сигнала поступают на блок нечеткого вывода с интегрированной базой знаний. База знаний имеет два входа для пропорциональной и интегральной составляющей сигнала с блока распознавания, таким образом база знаний реализует ПИ регулятор, где входными величинами являются соответствующие значения сигнала, а выходными величина управляющего воздействия подаваемого на двигатели машинки. Структурная схема показана на рис. 10.

Распознанный сигнал

Распознанный сигнал

Рис. 10. Структурная схема программы с блоком нечеткого вывода и базой знаний

Для более эффективной работы системы управления, можно использовать и более сложный регулятор, например, пропорционально-интегрально-дифференциальный (ПИД) регулятор, где в зависимости от поступивший команды с блока распознавания, реализуется поддержание соответствующего курса движения машинки ее скорости и угла поворота для достижения определенных значений цели управления. Управляющее воздействие в таком регуляторе вырабатывается согласно формуле:

de dt

u ( t ) = P + 1 + D = Kp e ( t ) + K j e(т ) dT + Kd

ПИД регулятор с различными коэффициентами усиления (рис 11).

Наблюдение за роботом

Мозговая активность

Рис. 11. Структурная схема программы с ПИД регулятором

ПИД регулятор имеет три слагаемых, которые в зависимости от поступающего сигнала с блока распознавания в сумме вырабатывают управляющее воздействие. ПИ и ПИД регуляторов соответственно установили ограничения на слагаемые интегральной и дифференциальной составляющей.

В этой работе не рассматривается задача настройки, поиска и установки коэффициентов усиления ПИД регулятора, но показано, что выбор коэффициентов усиления существенно влияет на работу системы. Далее в выводах работы показана возможность использования современных типов вычислений для добавления функций обучения и адаптации в структуру системы.

Проектирование когнитивного регулятора для управления автономным роботом

Для проведения эксперимента был собран объект управления – мобильный робот в виде трехколесной машинки с Bluetooth -управлением (рис. 12):

Рис. 12. Устройство управления

В устройстве управления, в качестве процессора для управления используется Arduino Uno . Совместно с драйвером двигателя – Pololu Dual MC 33926. 2 (микродвигателя) Мотора – DC 9 V Motor Bluetooth -модуль – HC -05. Источником питания служит 3 3 V Li - On батареи .

Первый и простой реализацией регулятора для машинки является пропорциональный регулятор. Такой регулятор посылает пропорциональное значение на двигатели машинки в зависимости от того какая из команд имеет наибольшую близость к записанной заранее ментальной команде (см. рис. 13).

0r9

0r8

0,7

уровень активации команды

уровень активации команды

0r6

0,5

о

Вперед

Назад

Ментальные команды

Рис. 13. Активация команд в пропорциональном регуляторе

Рис. 14. Управляющее воздействие, вырабатываемое П-регулятором при движении вперед и назад

Активизация команд, связанных попарно, например, движение вперед и назад, производится согласно разнице уровней активации этих команд.

Далее рассмотрим процесс проектирования ПИ регулятора с использованием оптимизатора баз знаний. Для этого, на первом этапе эксперт формирует обучающий сигнал, управляя на основе пропорционального регулятора машинкой. В процессе работы системы происходит запись сигналов, посту-паемых с блока распознавания. Далее из этого сигнала путем сложения формируется интегральная составляющая (рис. 15). После этого эксперт проставляет соответствующее управляющее воздействие на основе предыдущего опыта использования системы.

Для аппроксимации обучающего сигнала (рис. 16) применялся разработанный оптимизатор баз знаний с выбранной моделью нечеткого вывода (Сугено 1 порядка). Использовался сигнал с блока распознавания сигнала EPOC , а также интегральная величина сигнала, и идентификационный номер требуемой команды.

Рис. 15. Обучающий сигнал

Рис. 16. Нейронная сеть нечеткого вывода

На следующем этапе проектирования базы знаний для нечеткого вывода осуществляется формирование в автоматическом режиме полной базы знаний и дальнейшая оптимизация правых частей правил (рис.17).

На этапе создания БЗ полученный ОС используются для формирования лингвистических переменных для входных значений. В данной работе количество нечетких множеств в каждой лингвистической переменной было ограничено до 3.

Рис. 17. Структурная схема формирования правила в базе знаний

Другими словами, на входе в нейронную сеть поступают команды от программного модуля распознавания сигнала ЕРОС (вперед, назад, влево и вправо), на выход поступают значение для команды движения устройства, установленные экспертом.

Применение базы знаний совместно с ПИ регулятором, обусловлено необходимостью формировать более «мягкую» структуру для управления. Для этого создавались лингвистические переменные (ЛП) для каждой из записанных команд в системе распознавания, формировалась полная база знаний с использованием нечетких множеств ЛП (рис. 18). Правая часть регулятора содержала соответственные значения для управляющего воздействия с применением ПИ регулятора. Таким образом, уровень активации правила в базе правил соответствовал уровню активации управляющего воздействия.

Рис. 18. Пример лингвистической переменной для команды вперед

На рис. 19 приведен результат когнитивного управления движением мобильного робота в лабиринте на основе ПИ-регулятора:

Рис. 19. Траектория движения при управлении мобильным роботом на основе ПИ-регулятора

Следующими проверяемыми регуляторами для управления машинки были ПИД регуляторы с постоянными коэффициентами. При этом коэффициенты регуляторов были ПИД1 [1 1 1] и для ПИД2 [3 0.1 10].

Результаты: моделирование и эксперимент

На рис. 20 и рис. 21 представлены выходные команды систем управления для управления машинкой. На первом графике, зеленым цветом, представлен целевой сигнал, который соответствует движению вперед и назад, а остальными цветами выделены уровни активации П (на рисунке Epoc) и ПИ регулятора с базой знаний.

П регулятор 1   " Цель управления ПИ регулятор с базой знаний

Рис. 20. Управляющие воздействия, вырабатываемые релейным и ПИ регулятором при движении вперед и назад

Как видно из графиков на рис. 20, в момент, когда задача оператора – движение машинки назад и происходит концентрация мыслительного процесса на этой команде, стандартный блок не всегда правильно определяет управляющее воздействие, и машинка едет рывками или даже в другую сторону (ложное срабатывание), однако дополнительная надстройка в виде интегральной составляющей в базе знаний, позволяет сгладить последовательность команд и уменьшить ошибки при достижении цели.

На рис. 21 движению направо соответствует 1, а движению налево соответствует -1

Рис. 21. Управляющие воздействия, вырабатываемые релейным и ПИ регулятором при движении налево и направо

При работе системы распознавания часто возникают неверные (ложные) срабатывания или команды недостаточно хорошо распознаются, на пропорциональный регулятор это оказывает серьезное воздействие, и работа системы вызывает трудности при эксплуатации.

Дополнительно была рассмотрена задача объезда препятствия с использованием системы управления с ПИД регулятором (рис. 22).

Рис. 22. Объезд препятствия системой управления с ПИД регулятором

На рис. 23 представлены результаты эксперимента с использованием ПИД регуляторов с различными коэффициентами усиления управляющего воздействия. Коэффициенты устанавливались в ручном режиме. Дифференциальная составляющая в ПИД регуляторе связана со скоростью оператора активировать ментальную команду.

Рис. 23. Управляющие воздействия, вырабатываемые ПИД регуляторами при движении вперед

Как можно заметить, выбор значений коэффициентов усиления влияет естественно на выработку управляющего воздействия регулятором и на работу системы в целом. Однако установление оптимальных значений коэффициентов для каждого момента времени, является актуальной и очень интересной задачей. При неверной (ложной) установке значений так же наблюдается неверное срабатывание, объект управления движется рывками.

Для сравнения полученных результатов в проведенных экспериментах использовалась величина – среднее отклонение от желаемого результата. Как можно видеть из Таблицы 1 и Рис. 24, с использованием более сложного регулятора, отклонение уменьшается, однако неверная настройка коэффициентов усиления увеличивает отклонение системы от заданной цели.

Таблица 1

Наименование

П

ПИ

ПИД1

ПИД2

Среднее отклонение

0,846

0,853

0,860

0,505

Рис. 24. Интегральная оценка модулей отклонения

Анализ результатов экспериментов показал, что качество управления объектом значительно повышается при усложнении схемы управления.

Перспективы развития

В настоящее время для тренировки когнитивных способностей оператора широко применяются специализированные тренажеры – игры. Одной из основных проблем применения когнитивных технологий управления в системе «мозг - компьютер», является проблема, связанная с психофизиологическими особенностями состояния человека – оператора. Утомления, возбужденность, отвлекающие шумы и т.п. влияет на физическое состояние, что естественно сказывается на качестве распознавания команд и качестве управления конечным устройством. На сегодняшний момент тренажеры не обладают специализированным программным модулем для адаптации и обучения системы управления (самой программы) к особенностям оператора. Опыт работы с такими тренажерами показывает, что практически не используются механизмы адаптации и обучения и навязываемые производителем методики работы (запись сигнала и его повторения интерпретируемое как генерация команды).

В свою очередь зарекомендовавшие себя в широком классе областей мягкие вычисления (генетические алгоритмы, нечеткая логика и нечеткие нейронные сети) позволяют спроектировать интеллектуальную когнитивную систему управления. На рис. 25 представлена робастная когнитивная система управления

Наблюдение за роботом

Мозговая активность

Рис. 25. Робастная когнитивная система управления

В такой структуре управления центральным элементом является система нечеткого вывода с интегрированной в нее базой знаний, база знаний содержит правила типа ЕСЛИ-ТО. В правых частях правил содержаться соответствующие коэффициенты усиления при выработке управляющего воздействия. В левых частях находятся показатели распознанных и нераспознанных команд, например, значения дисперсий с датчиков шлема.

Для проектирования такого рода базы знаний необходимо использовать соответствующий тренажер. Обобщенно технологию проектирования можно представить в виде схемы представленной на рис. 26:

Рис. 26. Структура технологии проектирования когнитивной системы управления

В такой структуре управления центральным элементом является модель системы, то есть визуализация действий, которые необходимо сделать. Для движения машинки это может быть игра, где необходимо управлять машинкой.

Первым этапом проектирования является получения обучающего сигнала, например, на экране оператору демонстрируется движения машинки по определенной трассе. Одновременно записывается сигнал с датчиков ЭЭГ. Данный сигнал будет являться материалом для аппроксимации на нечеткую нейронную сеть и создания левых частей правил.

Правые части правил подбираются на втором этапе процесса проектирования, когда оператору необходимо самому управлять машинкой. При этом его попытки повторить предыдущий (записанный) сигнал не обязательны, т.к. правые части еще не сформированы. Они формируются в процессе движения машинки по трассе, где скорость движения определяется на основе ПИД регулятора.

Реализация данной технологии представляется возможной в связи с широким распространением игровых программных движков.

Выводы

Результаты показали, что качество управления объектом значительно повышается при такой схеме управления. Проведенная работа демонстрирует необходимость разработки унифицированной технологии проектирования систем управления для нейроинтерфейсов и недостаточность робастности функционирования, поставляемого ПО.

Стоит отметить, что дальнейшее развитие когнитивных технологий управления неразрывно связанно с методами обучения мозга оператора, с применением специализированных фильтров, сглаживающих сигналы ЭЭГ и удаляющих помехи и шумы, вызванные психофизиологическим состоянием и внешними факторами, и применением интеллектуальных технологий в программном обеспечении исполнительных механизмов для обучения и адаптации системы управления взаимодействием с оператором.

Статья научная