О прецедентной идентификации фрагментов изображений сканированного рукописного текста
Автор: Жиляков Е.Г., Заливин А.Н., Белов С.П., Черноморец Д.А., Васильева Н.В.
Журнал: Инфокоммуникационные технологии @ikt-psuti
Рубрика: Технологии компьютерных систем и сетей
Статья в выпуске: 3 т.19, 2021 года.
Бесплатный доступ
В настоящее время накоплены большие хранилища данных, полученных при сканировании рукописных текстов. Существенное место в них занимают сканированные напечатанные документы, которые содержат рукописные подписи должностных лиц. Полученные в процессе сканирования изображения текстов часто подвергаются компьютерному анализу в связи с той или иной необходимостью. Существенный интерес представляет поиск в этих изображениях фрагментов, содержащих заданные словоформы, например в филологии при исследовании частоты использования одним и тем же автором некоторых слов. Можно также указать случаи поиска слов с позиций обеспечения безопасности социально-экономических процессов. Важным примером является обнаружение фальсификаций подписей должностных лиц и т. п. Особенностью автоматического поиска идентичных словных фрагментов на изображениях сканированных документов является возможность их идентификации с использованием только одного образца текста (прецедента), что требует создания специальной методики машинного обучения. В представленной статье разработана решающая процедура отнесения словных фрагментов изображений сканированного рукописного текста к классу идентичных заданному прецеденту. В качестве элементов признакового пространства предложено использовать проекции векторов на соответствующие ненулевым собственным числам собственные векторы субполосных матриц. Обоснован способ формирования суммарных субполосных матриц на основе введенного понятия информационных субполос в области пространственных частот. Предложена процедура обучения на основе одного прецедента. В основе этой процедуры используется разработанный метод формирования векторов, совокупность которых моделирует обучающую выборку. Сформирован алгоритм обработки изображений при поиске идентичных заданному фрагменту.
Изображения сканированного рукописного текста, поиск фрагментов, идентичных заданному, субполосный анализ
Короткий адрес: https://sciup.org/140290760
IDR: 140290760 | DOI: 10.18469/ikt.2021.19.3.07
Текст научной статьи О прецедентной идентификации фрагментов изображений сканированного рукописного текста
Технологии обработки изображений сканированных рукописных текстов (СРТ) разрабатываются и постоянно развиваются. Основная направленность существующих технологий распознавании рукописных текстов состоит в том, чтобы превратить их в печатный, с которым затем можно работать средствами соответствующих текстовых процессоров. Несмотря на определенную закрытость сведений о математических основах и алгоритмах обработки изображений СКТ, можно отметить, что чаще всего используются некоторые шаблоны рукописных букв, с помощью которых и реализуются решающие процедуры идентификации букв [1‒5]. Ясно, что эти процедуры достаточно трудоемкие и невозможно избежать ошибок ввиду изменчивости почерка пишущего даже в одном документе. Причем речь идет о проверке справедливости многих гипотез.
Очевидно, что процедура поиска фрагментов СРТ, образованных заданной словоформой, является более простой с точки зрения принятия решений, так как имеется в виду проверка только одной гипотезы об идентичности фрагментов. В частности, в общем случае это приводит к уменьшению вероятностей ошибочных решений.
С позиций математических основ решения такой задачи следует отметить, что в отличие от отдельных символов их совокупность в словном фрагменте представляет собой некоторую систему, обладающую вполне определенным совокупным свойством. Таким свойством является квазипериодичность контуров символов (букв) вдоль строк, причем для каждой словоформы можно ожидать отличий в этой характеристике. Поэтому естественной математической основой поиска идентичных фрагментов СРТ могут служить частотные представления в области пространственных частот, что реализуется с применением аппарата анализа Фурье. Имея в виду известное равенство Парсеваля между квадратами евклидовых норм фрагментов и их трансформант Фурье, можно показать, что квазипериодичность приводит к повышенной концентрации последней в узких частотных диапазонах. Таким образом адекватной основой обработки СРТ является субполосный анализ. Современный подход к анализу Фурье предполагает явное вычисление трансформант Фурье или КИХ-фильтрацию [6].
Отличием предлагаемого в статье подхода к субполосному анализу является использование аппарата субполосных матриц [7‒9]. Отметим, что такой подход позволяет обеспечить инвариантность принятия решений к возможным от- личиям фрагментов, сформированных в разные моменты времени при написании одних и тех же словоформ одним и тем же автором.
Целью работы является создание для информационно-аналитических систем безопасности технологии обработки изображений СРТ, позволяющей по заданному фрагменту (прецеденту) отыскивать идентичные остальные. Прежде всего речь может идти о фрагментах, образованных начертанием одного из слов (словные фрагменты), которые будем называть ключевыми.
Материалы и методы
В рамках сложившейся терминологии такую технологию обработки изображений СРТ представляется естественным называть прецедентной идентификацией. Для создания такой технологии необходимо по крайней мере разработать:
-
1) метод принятия решений о справедливости начальной гипотезы: H 0 ‒ срaвнивaемые фрaг-менты изобрaжений идентичны зaдaнному;
-
2) метод обучения, позволяющий по одному прецеденту описaть клaсс, которому принaдле-жaт идентичные фрaгменты.
Совокупность этих методов предстaвляет собой метод прецедентной идентификaции фрaг-ментов скaнировaнных изобрaжений рукописного текстa.
Основу методa принятия решений состaвляет мерa идентичности срaвнивaемых фрaгментов, в которой используются тaк нaзывaемые признa-ки. Γлaвное требовaние к нaбору признaков (при-знaковое прострaнство) состоит в aдеквaтности отрaжения свойств прецедентa с точки зрения эффективности описaния клaссa идентичных ему фрaгментов. Отметим, что эффективность долж-нa oценивaться с позиций решaющей процедуры. В общем случaе используемые признaки в клaссе идентичных фрaгментов (обрaзовaнных одними и теми же словоформaми) должны иметь мaлyю изменчивость и достaточно резко изменяться при выходе из этого клaссa.
Если принять во внимaние трудности сегмен-тaции фрaгментов изобрaжений рукописного тек-стa нa буквы, то естественным подходом пред-стaвляется сопостaвление фрaгментов в целом. Taким обрaзом, при формировaнии прострaнствa признaков необходимо отрaзить состaв символов фрaгментa прецедентa и последовaтельность их нaчертaния. Иными словaми, основную роль должнa игрaть динaмикa изменений символов.
Изменчивость нaчертaний символов дaже одним и тем же человеком зaтрудняет использовa-ние мер близости фрaгментов в виде евклидовой нормы разности сравниваемых фрагментов. Поэтому возникает необходимость поиска таких преобразований исходных данных, которые малочувствительны к вариативности начертаний символов и стабильно отображают их состав и последовательность начертания.
В рамках данной работы в качестве таких преобразований предлагается использовать субполосные представления в области пространственных частот.
Некоторые определения и соотношения
Субполосные представления заключаются в следующем. Пусть матрица F = { f k }, i = 1,..., N : k = 1,..., M состоит из значений пикселей некоторого фрагмента изображения рукописного текста. В дальнейшем предполагается, что величина N определяется на этапе задания прецедента (исходного словного фрагмента) и равна количеству занимаемых им строк, а М ‒ количество учитываемых столбцов соответственно. Очевидно, что количество вовлекаемых в анализ пикселей равно произведению этих чисел:
K = N * M . (1)
В этих условиях можно определить вектор x = ( x 1 ,..., xK )', где штрих означает транспонирование, а компоненты определяются соотношениями:
хт = f ,m m = 1,..., K , (2)
m ‘m , m где im = [(m -1)/ M ] +1; (3)
km = m - [( m - 1)/ M ]* M .
Здесь и в дальнейших формулах квадратные скобки означают целую часть числа.
Таким образом, имеется в виду построчное развертывание рассматриваемого фрагмента. Трансформанта Фурье (спектр) такого вектора определяется соотношением:
K
X ( z ) = Ё x m eXP( — j ( m — 1) z )• (5)
m = 1
Ясно, что спектр (5) является периодической функцией пространственной круговой частоты z . Поэтому принято рассматривать только один сегмент его области определения (основной лепесток):
-
-n < z < П.(6)
Имея в виду соответствие (2), соотношению (5) можно придать следующий вид:
N
X(z) = £ exp(- j(i -1)Mz)Ф,(z),(7)
= 1
где
M
Ф(z)=E fk exp(-j(k - 1)z )
k = 1
Пусть теперь строки фрагментов изображений близки в смысле выполнения тождества:
V ie{1,...,N} Ф;(z) = Ф(z), -n< z Тогда представление (7) дает выражение для спектра: X(z) « sin(MzN / 2) / sin(Mz / 2) x x exp(- jMz(N -1) / 2)Ф(z). Очевидно, что квадрат модуля спектра вида (10) определяется соотношением: | X (z )\2« (sin (MzN / 2)/(11) /sin(Mz / 2))21 Ф(z)|2. Таким образом, в спектре будут наблюдаться всплески в точках: zk = 2nk /M, k = 0,±1,...,±M / 2,(12) где знаменатель (11) будет стремиться к нулю. С другой стороны, строки фрагмента также содержат символы, которые могут располагаться почти периодически на расстоянии ширины символов букв. Представляется, что все буквы, написанные одним и тем же человеком, имеют близкую ширину и словный фрагмент содержит их целое количество. Это приводит к тому, что точки максимумов (12) первого сомножителя в (11) могут совпадать с максимумами последнего сомножителя. Иными словами, возможна высокая концентрация энергии рассматриваемого вектора в отдельных субполосах пространственных частот. Субполосный анализ векторов предполагает, что их свойства оцениваются, исходя из некоторого разбиения области (6) на субполосы, которые в рамках данной работы предлагается задать следующим образом: Q0 = (-n / K, n / K ];(13) Оr = (-(2r + 1)n / K, - (2r - 1)n / 3] о (14) o((2 r - 1)n / 3,(2 r + 1)n / K ]. где r = 1,...,R = [(K -1)/ 2].(15) Основу математического аппарата субполосного анализа составляют субполосные матрицы [10; 11]: Ar = {ar}, i,k = 1,...,K,(16) элементы которых для рассматриваемого разбиения частотной полосы определяются соотношениями: aa = sin(n(i- k)/ K)/(17) /n(i - k), a0 = 1 / K; aik = 2aik cos(zr(i - k)), r = 1,...,R. (18) Справедливы [10] соотношения, определяющие части энергий векторов, попадающие в выбранные субполосы: Pr (X) = J | X(z)|2dz / 2n = x' Arx. (19) zeQr Таким образом, субполосные матрицы являются неотрицательно определенными, а их симметрия позволяет представить их в виде произведения [12]: Ar = QrLrQr, (20) ArQr = QrLr.(21) 1 >Xr >X2 >...>XK >0.(22) Подстановка (20) в (19) дает: K Pr (X) ^' k (ak )2,(23) k=1 где ak - проекции вектора на собственные векторы субполосной матрицы: K a k=(qr, ^)=Ё xqr. (24) i =1 Важно отметить, что только часть собственных чисел субполосной матрицы может быть отлична от нуля [10]. То есть имеют место достаточно точные равенства: Xk+J « 0, k = 1,...,K - Jr.(25) При этом для матрицы с элементами (17) это количество определяется соотношением։ J0 = [KQ0 / n] + 4 = 5,(26) тогда как для остальных это значение удваивается: Jr = 2 * J0 = 10.(27) Поэтому векторы: yr = Q1 Xi = Q1 r a1 r,(28) где Q1r ‒ мaтрицы, которые состоят из чacти исходных собственных векторов։ Q1 r = (qr...q\),(29) и a1 r - часть соответствующих проекций на них, удовлетворяют рaвенству: Pr(yr - x) = 0.(30) Taким обрaзом, в соответствии с определением (19) для отрезков спектров исходного векторa и векторa (28) в среднекʙaдрaтическом смысле выполняются тождестʙa: Yr (z) ^ X(z), z eQr. (31) Иными словaми, отрезки спектров совпaдaют, что являетcя ʙaжным свойством и в дaльнейшем используется при рaзрaботке решaющей процедуры прецедентной идентификaции фрaгментов изобрaжений. Принятие решений об идентичности сравниваемых фрагментов В кaчестве основной xaрaктеристики преце-дентa предлaгaется использовaть понятие совокупности информaционных субполос видa (13) и (14): Qs = u Qr,(32) r e RS которые удовлетворяют условиям։ Pr (x) > hr,(33) где h0 = 2||x||2 /K; hr = 2h0,r > 0;(34) RS - множество их индексов, а символ ||..|| озна-чaет евклидову норму векторa. Совокупности информaционных субполос соответствует суммaрнaя cyбполоснaя мaтрицa: As = Е Ar, (35) re RS которaя тaкже является симметричной и неот-рицaтельно определенной. Поэтому онa тaкже предстaвимa ʙ ʙиде։ As = QsLsQs,(36) причем собственные чиcлa yдовлетворяют (22) и чacть из них близки к нулю: XS+. = 0, k = 1,...,K - Js.(37) k + J ss Поэтому вектор yS = Q1S a1 S(38) будет облaдaть свойством Ps (X - yS) = 0.(39) Taким обрaзом, для спектрa векторa (37) выполняется тождество: YS(z) = X(z), z eQS.(40) где Q_s - объединение субполос, дополняющих совокупность QS до полной области (6). Отметим, что мaтрицa Q1S состоит из первых соответствующих ненулевым собственным чис-лaм собственных векторов, a проекции нa них определяются из соотношения a1S = Q1S;c. (41) Использовaние нерaвенств видa (33) при фор-мировaнии суммaрной субполосной мaтрицы дaет нерaвенство: Ps (x) > PS (x) = ||f||2-Ps (f), (42) Таким образом, неучитываемые субполосы содержат тем меньше энергии, чем больше энергии приходится на информационные. Из равенства [10]: Л. = J G (z)|2 dz / 2n, (43) z∈ΩS где подынтегральная функция является спектром соответствующего собственного вектора, следует, что учет в представлении (38) только ненулевых собственных чисел позволяет отфильтровать малоэнергетические компоненты, которые часто обусловлены шумами. Поэтому в качестве решающей функции (РФ) при оценке идентичности с прецедентом векторов u = (u1,...,uK)' предлагается использовать форму: JS p(x, / = 1 -£ |akS в B|/| |a1 s| 11 leisH , (44) k=1 где имеется в виду вектор проекций /1 = Q1S U (45) Отметим, что если вектор qk является собственным вектором субполосной матрицы (35), то и - у k является собственным вектором с тем же собственным числом. Поэтому абсолютные значения компонент векторов (41) и (45) равны проекциям сравниваемых векторов на собственные направления субполосной матрицы. При этом игнорируются возможные фазовые сдвиги, обусловленные неидентичностью написания символов. В качестве проверяемой начальной гипотезы, естественно, использовать следующее: H0: сопоставляемые векторы идентичны. На основе неравенств между средним ариф-мeтическим и средним геометрическим и Коши-Шварца для (44) получаем неравенство։ 0 (х, й)< 1 - _Js / - Js (П laks в ks l УJS /| |а1| 11 |в1| |, k=1 в котором равенство в левой части достигается при полной идентичности сравниваемых векторов. Ввиду изменчивости записей одной и той же словоформы такое значение РФ практически недостижимо, и надо определять некоторое значение (порог), когда выполняется неравенство для условной вероятности։ Ver(p(х, й) > hа/ й е XX) < а, (47) где символ Ver означает вероятность; XX ‒ множество идентичных векторов; наклонная черта означает условие; α ‒ вероятность ошибок первого рода. Так как имеет место равенство max p( х, й) = 1, (48) то область значений, когда начальная гипотеза отвергается (критическая область), имеет вид G = (hа ,1). (49) Для определения нижней границы критической области используется обучение на основе некоторой выборки векторов. В данном случае необходимо на основе прецедента смоделировать обучающую выборку векторов, которые отвечают некоторому критерию идентичности. Такое моделирование принято называть аугментацией [13]. В качестве признака идентичности предлагается использовать условие un = ys + vn, n = 1,...,Nm,(50) где vn = (vn,...,vK)' - векторы, состоящие из псевдослучайных гауссовых чисел, квадраты евклидовых норм которых удовлетворяют равенству || vj|2 =||х|^ -Ps(х).(51) В качестве нижней границы критической области предлагается использовать максимальное значение РФ вида (44): ha = max p(x, йn), 1 < n < Nm,(52) когда размер обучающей выборки удовлетворяет равенству Nm = [1 / a] +1.(53) Здесь квадратная скобка снова означает целую часть числа. Заключение В рамках данной работы получены соотношения, определяющие решающую процедуру, которую предлагается использовать для поиска идентичных словных фрагментов изображений сканированного рукописного текста на основе одного из заранее заданных (прецедента). Алгоритм обработки изображений в рамках данной процедуры имеет следующие основные этапы։ задание прецедента и формирование вектора (2); на основе неравенств (33) формирование субполосной матрицы вида (35); формирование векторов (38) и (41); с использование принципов аугментации (50) и (51) формирование обучающей выборки и вычисление границы критической области на основе соотношений (52) и (53), предполагая, что вероятность ошибок первого рода задана. Исследования выполнены при поддержке гранта 20-07-00241а.
Список литературы О прецедентной идентификации фрагментов изображений сканированного рукописного текста
- Арлазаров В.Л., Славин О.А. Алгоритмы распознавания и технологии ввода текстов в ЭВМ // Информационные технологии и вычислительные системы. 1996. № 1. С. 48-54.
- Горошкин А.Н. Обработка изображений в системах распознавания рукописного текста // Цифровая обработка сигналов и ее применение: материалы 10-й Международной конференции и выставки. 2008. С. 489-491.
- Мерков А.Б. Основные методы, применяемые для распознавания рукописного текста // Лаборатория распознавания образов МЦНМО. 2004.
- Хаустов П.А. Алгоритм сегментации рукописного текста на основе построения структурных моделей // Фундаментальные исследования. 2017. № 4-1. С. 88-93. URL: http://fundamental-research.ru/ru/article/view?id=41440 (дата обращения: 16.04.2021).
- Хаустов П.А. Алгоритмы распознавания рукописных символов на основе построения структурных моделей // Компьютерная оптика. 2017. Т. 41, № 1. С. 67-78. DOI: https://doi.org/10.18287/2412-6179-2017-41-1-67-78