Рекуррентная нейронная сеть с управляемыми синапсами для распознавания рукописного связного текста
Автор: Белова Ирина Константиновна, Дерюгина Елена Олеговна
Статья в выпуске: 1 (7), 2016 года.
Бесплатный доступ
В статье содержится научное обоснование выбора нейронной сети для преобразования естественного рукописного текста в электронный эквивалент. Одной из задач, стаявшей перед авторами, была задача увеличения качества преобразования естественного рукописного текста. Для решения поставленной задачи авторами предлагается использовать рекуррентную нейронную сеть с управляемыми синапсами.
Нейронная сеть, рекуррентная нейронная сеть, синапс, естественный рукописный текст
Короткий адрес: https://sciup.org/140129953
IDR: 140129953
Текст научной статьи Рекуррентная нейронная сеть с управляемыми синапсами для распознавания рукописного связного текста
Темой исследования является решение задачи улучшения качества автоматизированного перевода рукописных текстов в компьютерное представление, которое в дальнейшем можно обрабатывать на вычислительной технике.
Проблема перевода рукописных текстов серьезно стала подниматься на рубеже пятидесятых и шестидесятых годов на фоне приличных результатов развития, для того времени, алгоритмов по распознанию графических образов. Крупным прорывам того времени были проекты по автоматизации обработки почтовых индексов на конвертах и карточках, заполнение анкет при переписи населения и других видах анкетирования. Для реализации этих проектов применялось дорогостоящее оборудование – оптические читающие устройства без вычислительной техники, то есть специализированное оборудование по принципу работы совпало или нет. В последствии, это оборудование стали соединять с вычислительными машинами, и в конечном итоге, система автоматического перевода превратилась в объединение сканера и одного или нескольких компьютеров. Сфера применения технологии распознавания образов расширилась, увеличилась гибкость алгоритмов, упала стоимость оборудования и программного обеспечения и на базе этого получили развитие алгоритмы перевода рукописных текстов, но практически везде распознавание проводилось посимвольное и качество перевода была низким.
Несмотря на вышеперечисленное, прогресс развития алгоритмов перевода, основанный на методах распознавания образов, вопреки ожиданию, шел катастрофически медленно, по сравнению с темпами развития компьютерной отрасли в целом. В результате понятно, что алгоритмизация перевода слитного рукописного текста в электронный эквивалент еще не достигла необходимого уровня для широкого применения, поэтому практически все реальные программные продукты использовали специальные машиночитаемые форматные бланки с выделенными знакоместами. Знакоместа в этих бланках обозначались выделением цвета или точечными рамками, которые не воспринимаются сканером. Таким образом, задача преобразования естественного рукописного текста в электронный текст, сводилась к более простой задаче – распознаванию выделенных по одному рукописных символов заданного формата.
Задача перевода рукописного текста в электронный эквивалент имеет вполне приемлемые практические решения, есть встроенные функции обработки сканированного текста практически во всех текстовых процессорах. Но для получения требуемого качества приходится вводить ограничения на очертания написания отдельных символов. Очертание символов должно быть максимально приближено к классическим нормам, то есть символы должны быть без завитков, соединительных элементов. Наиболее простой путь – введение стилизованного начертания, по пунктирным линиям, как на почтовых конвертах. Данный путь не принес ожидаемого результата, так как среднестатистическому человеку не свойственно постоянно выполнять ограничения. В дальнейшем, многие алгоритмы анкетирования, почтовые ведомства ослабили требования к формату начертания и достигли заметного успеха, но это привело к тому, что окончательную правку делал человек, поэтому говорить об окончательном решении проблемы пока не приходится. В условиях неограниченных вариантов начертания одной буквы различных пишущих очень трудно просчитывать их умение и сознательные ограничения при письме. Если при заполнении бланков используют специально обученных людей, то оказалось, что даже в таких проектах как перепись населения или опрос граждан, далеко не всегда соблюдается элементарная аккуратность и качественный инструмент письма. Несмотря на реальные и заметные успехи в практической апробации алгоритмов перевода рукописного текста в электронное представление, проблема повышения надежности распознавания и снижения требований к очертанию букв и их слитности далеко не исчерпана. Причем, острее всего она стоит при обработке документов, предназначенных для населения и заполняемых независимо от грамотности, сознательности, возраста и даже состояния пишущих на момент заполнения, например, это различные заявления.
Поиск путей расширения функциональных возможностей нейронных сетей по интеллектуальной обработке информации в настоящее время представляет собой научный и практический интерес. Наличие их позволит создать высокоинтеллектуальные системы и машины, существенно облегчающие познавательную и созидательную деятельность человека в различных областях. Одним из путей такого совершенствования является развитие рекуррентных нейронных сетей.
Известны рекуррентные нейронные сети [1-6], применяемые для ассоциативного запоминания информации, нелингвистического прогнозирования и моделирования, обработки речевых и других сигналов, распознавания процессов, управления различными объектами. Среди них ассоциативные сети (Хопфилда, Хемминга, ВАМ), рекуррентные сети на базе персептрона (RMLP, RTRN, Эльмана) и другие.
К недостаткам известных рекуррентных сетей относятся существенно ограниченные возможности по обработке различных видов сигналов, их распознаванию, запоминанию, извлечению из памяти сети. Имеет место быстрое размывание структур сигналов в сетях. Эти сети не позволяют в полной мере реализовать искусственное мышление и обеспечить решение одной и той же сетью различных интеллектуальных задач. Это обусловлено как несовершенством архитектур рекуррентных нейронных сетей, так и моделей их элементов.
Предлагается новая рекуррентная нейронная сеть с управляемыми синапсами расширенными возможностями по интеллектуальной обработке информации.
Целью исследования является разработка методики автоматизированного перевода текстов из растровых изображений в вид электронных текстов и основанного на этой методике программного продукта. Назначением такого продукта является сокращение времени получения элек- тронных текстовых документов за счёт замены этапа ручного ввода автоматизированным распознаванием.
Задачи исследования: изучение особенностей рукописных текстов; анализ существующих методов распознавания рукописных текстов; разработка метода распознавания, обеспечивающего достаточную степень автоматизации перевода текстов; разработка алгоритмов анализа изображений; проектирование и реализация программного продукта.
Полагается, что в искомую рекуррентную сеть должны подаваться структурно-сложные сигналы, предварительно разложенные на составляющие в базисе, согласованным с ее входным слоем. При этом каждая составляющая перед подачей в сеть должна быть преобразована в последовательность единичных образов с частотой повторения, как предварительно заданной функции от ее амплитуды. В итоге на вход искомой сети должны подаваться последовательности совокупности единичных образов, несущих всю информацию о входных сигналах. Информация о частотных и пространственных характеристиках составляющих сигнала в рассматриваемом случае закрепляется номерами формируемых последовательностей единичных образов. Фазовые характеристики составляющих однозначно связаны с задержками единичных образов.
В интересах разработки нашей сети необходимо учесть свойства, характерные для биологических нейронных сетей. Среди них обратим внимание на наличие у биологических нейронов состояний невосприимчивости к внешним воздействиям после возбуждения. Время нахождения биологических нейронов в этих состояниях существенно больше времени задержки в них сигналов. Кроме этого в биологической нейронной сети между электрическими зарядами существуют силы притяжения и отталкивания, которые влияют на направление потоков импульсов. Поэтому мы выбрали рекуррентную сеть. Как любая система, имеющая обратную связь, рекуррентная сеть стремится к устойчивому состоянию. Как известно, наиболее устойчивое состояние обеспечивается минимизацией энергии системы. Рекуррентная сеть «фильтрует» входные данные, возвращаясь к устойчивому состоянию и, таким образом, позволяет решать задачи компрессии данных и построения систем распознавания сложных образов.
Принимая это во внимание, в качестве нейронной сети для интеллектуальной обработки сигналов предлагается использовать сеть с обратными связями, замыкающими многослойные контуры с времени невосприимчивости нейронов после их возбуждения. При передаче совокупностей единичных образов в нейронной сети от слоя к слою рекомендуется сдвигать их вдоль слоев с учетом текущих состояний последних. Это достижимо за счет специального управления синапсами нейронов.
Полагается, что в искомую рекуррентную сеть должны подаваться структурно-сложные сигналы, предварительно разложенные на составляющие в базисе, согласованным с ее входным слоем. При этом каждая составляющая перед подачей в сеть должна преобразована в последовательность единичных образов с частотой повторения, как предварительно заданной функции от ее амплитуды. В итоге на вход сети должны подаваться последовательности совокупности единичных образов, несущих всю информацию о входных сиг- налах. Информация о частотных и пространственных характеристиках составляющих сигнала в рассматриваемом случае закрепляется номерами формируемых последовательностей единичных образов. Фазовые характеристики составляющих однозначно связаны с задержками единичных образов.
Входные последовательности также формирует нейронная сеть, которая выделяет интенсивность пикселей и выделяет основной след рукописный текст, представляя его в виде матрицы или бесконечной лены. Под единичным образом подразумевается колонка пикселей, составляющих рукописный текст, для упрощения задачи ограничим ленту матрицей 16х16 пикселей.
Основным элементом этой НС является искусственный нейрон. Он традиционно представляется линейной суммой с N входами (каждому их входов ставится в соответствие некоторый весовой коэффициент wt) и одним выходом, соединенным с нелинейным элементом, реализующим активационную функцию F(x).
При выборе структуры сети для решения задачи преобразования входного графического пятна – рукописного текста, необходимо учитывать следующие аспекты:
-
• способность сети к обучению, т.е. возможность научить систему распознавать требуемое число объектов. Чем больше в сети слоев и нейронов, тем выше ее способности и одновременно с этим подробности в аппаратных ресурсах;
-
• быстродействие, которое достигается уменьшением сложности сети, так как чем меньше нужно аппаратных ресурсов, тем быстрее осуществляется работа НС.
Чтобы удовлетворить эти взаимопротиворечивые требования, необходимо оптимизировать структуру НС. Для решения этой проблемы можно воспользоваться теоремой Хегт-Нильсена [6], которая доказывает, что функцию многих переменных общего вида можно представить двухслойной НС прямого распределения с ограниченными функциями активации сигмоидного вида
Сигмоидальные функции являются монотонно возрастающими и имеют и имеют отличнее от нуля производные на всей области определения. Эти характеристики обеспечивают правильное функционирование и обучение сети.
Двухслойная НС прямого распространения, имеющая 16 входов и 16 выходов, содержит скрытый слой, состоящий из М нейронов. Результатом работы НС является нелинейное преобразование 16-мерного входного вектора Х в двухмерный вектор Y.
Для уменьшения сложности сети в качестве входного массива данных предлагается вводить не значения интен- сивности пикселей, а предварительно полученные значения характеристик сегментов изображения рукописного текста.
Сегментацию изображения, представляющую собой двумерный массив значений интенсивности пикселей в оттенках серого, предлагается проводить по критерию однородности пикселей, так как вероятностные распределения значений интенсивности пикселей неизвестны, а любой другой выбор статистической метрики, как это проведено, например, в [5], исходит опять же, из области значений интенсивности. Таким образом, на изображении присутствует объект, более темный, чем фон. Для нахождения границ выбирают самые темные пиксели в качестве точки старта, затем наращивается область вокруг них, и определяются границы рукописной надписи. После проведения сегментации рукописной надписи вычисляются характеристики полученных объектов.
Выходные последовательности становятся входными для нейроядра. Таким образом точность в целом всей системы повышается, а скорость обработки увеличивается.
Предложенное сочетание нейронных сетей были промоделированы и протестированы. Осуществлялось моделирование предложенной системы в среде MatLab. Моделирование первоначально проводилось каждой нейронной сети раздельно, а затем выходные данные обработки первичного изображения рукописного текста стали входными для основной нейронной сети (нейроядра).
Результаты моделирования подтвердили наличие у нее свойств, удовлетворяющих предъявленным требованиям.
Входные сигналы в нейронной сети не разрушались. При этом они запоминались не только в долговременной памяти на синапсах, но и в оперативной памяти через состояния нейронов. Они позволяли извлекать из памяти сети связанные с ними сигналами. По последовательностям совокупностей единичных образов на любом из выходов нейронной сети можно было воспроизвести исходные воздействия [3].
Предложенная нейронная сеть с управляющими синапсами представляет собой интеллектуальное нейросетевое ядро, обладающее расширенными возможностями по обработке разнородной информации.
Управление синапсами позволяет устранить разрушение в сети структур обрабатываемых сигналов, совершенствовать их запоминание и ассоциирование.
На базе этой сети могут быть разработаны перспективные ассоциативные машины, реализующие интеллектуальную обработку информации в широком смысле.
Список литературы Рекуррентная нейронная сеть с управляемыми синапсами для распознавания рукописного связного текста
- Галушкин А.И. Теория нейронных сетей. Кн. 1: учеб. Пособие для вузов/Общая ред. А.И. Галушкина. М.: ИПРЖР, 2000. 416 с
- Оссовский С. Нейронные сети для обработки информации/Пер. с англ. И.Д. Рудницкого. М.: Финансы и статистика, 2002. 344 с
- Хайкин С. Нейронные сети: полный курс. 2-е изд.: Пер. с англ. М.: Вильямс, 2006. 1103 с
- Макаров И.М., Лохин В.М., Манько С.В., Романов М.П. Искусственный интеллект и интеллектуальные системыуправления. М.: Наука, 2006. 333с
- Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. -М.: Наука, 2004. -384 с
- Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. -Новосибирск: Наука, 1996. -C. 114 -119.