Классификация символов в стенографических документах на основные, надстрочные и под строчные

Автор: Гиппиев Михаил Борисович, Рогов Александр Александрович

Журнал: Ученые записки Петрозаводского государственного университета @uchzap-petrsu

Рубрика: Физико-математические науки

Статья в выпуске: 8 (145) т.2, 2014 года.

Бесплатный доступ

При дешифровке исторических стенографических документов относительное местоположение символа влияет на его смысл. Мы определяем три позиции: основная, надстрочная или подстрочная. В работе приводятся результаты сравнения двух алгоритмов классификации символов по их положению методом одинарной и методом двойной аппроксимации. Параметры алгоритмов выбирались экспериментально, использовалась обучающая выборка. Для построения выборки вначале выделяются строки на стенограммах (в автоматическом режиме), а затем определяется тип каждого символа. Качество работы алгоритмов определяется пятью показателями: корректность, точность, полнота, F-мера и обобщенная F-мера. На основании обобщенной F-меры лучший результат показал алгоритм классификации символов методом двойной аппроксимации. Кроме того, для каждого алгоритма классификации определены оптимальные настроечные параметры, при которых среднее значение обобщенной F-меры на контрольной выборке является максимальным.

Еще

Стенографический документ, алгоритм классификации символов, надстрочные и подстрочные символы, метод аппроксимации

Короткий адрес: https://sciup.org/14750753

IDR: 14750753

Текст научной статьи Классификация символов в стенографических документах на основные, надстрочные и под строчные

Для правильной дешифровки исторических стенографических документов [4] требуется определить тип каждого символа (графемы), то есть отнести его к основным, надстрочным или подстрочным символам. Из-за искажений рукописного текста, связанных с привычками автора, скоростью письма, аккуратностью, наклоном текста в ту или иную сторону, заваливанием, исправлением, зачеркиванием текста и некоторыми другими факторами, точно решить эту задачу невозможно. В работе [3] предлагается математическая модель дешифровки стенограмм. Использование этой модели предполагает знание вероятности того, что стенографический символ относится к основным, надстрочным или подстрочным. В данной статье описываются два алгоритма вычисления этих вероятностей и результаты сравнения их работы. Оба алгоритма используют метод аппроксимации, так как проведенный анализ показал, что строки в стенографических документах, как правило, имеют форму, которую можно аппроксимировать полиномом некоторой степени.

Для объективного сравнения качества работы алгоритмов классификации символов была построена контрольная последовательность, то есть в стенографических документах были выделены строки и для каждого символа указан его тип. Оценки были рассчитаны путем сравнения результатов работы алгоритма классификации символов с контрольной последовательностью. Были рассмотрены корректность, которая рассчитывается как отношение количества правильно классифицированных символов к общему количеству символов, точность, полнота и F-мера [6] для каждого типа символов, а также обобщенная F-мера, представляющая собой среднее значение оценок F-меры для каждого типа символов.

При оценке считалось, что символ относится к тому или иному типу, если вероятность данного события превышала 50 процентов. Кроме того, разбиение символов на строки выполнялось с помощью алгоритма распознавания строк методом построения графа связей, описанного в работе [1]. В качестве итоговой оценки, на основании которой проводилось оценивание качества алгоритмов классификации символов, была выбрана обобщенная F-мера.

АЛГОРИТМ КЛАССИФИКАЦИИ СИМВОЛОВ МЕТОДОМ ОДИНАРНОЙ АППРОКСИМАЦИИ

Задается степень аппроксимирующего полинома m [5]. Предположим, что для каждого стенографического символа известны его размеры и то, к какой строке он относится. Строим полиномиальную аппроксимирующую функцию

степени m по центрам символов одной строки (рис. 1). Кривую, заданную аппроксимирующей функцией, будем называть линией аппроксимации. Определяем расстояния между центрами символов и линией аппроксимации. Обозначим это расстояние для некоторого символа за е . Тогда вероятность того, что данный символ является основным, будем считать равной

P осн = e - λε , (1)

а вероятность того, что данный символ является надстрочным, в случае если он расположен над линией аппроксимации, либо подстрочным, если он расположен под линией аппроксимации, равной

-λε неосн e

,

где X - некоторый коэффициент, который подбирается в зависимости от стенограммы. При этом Pосн

+ P

= 1.

неосн

Рис. 1. Распознавание типов символов методом одинарной аппроксимации

О

Таблица 1

Лучшие средние значения обобщенной F-меры алгоритма классификации символов методом одинарной аппроксимации

m

λ

Обобщенная F-мера

Стенограмма

Среднее значение

№ 1

№ 2

№ 3

№ 4

4

0,0473

0,4696

0,5831

0,5661

0,6728

0,5729

4

0,0474

0,4696

0,5831

0,5661

0,6728

0,5729

4

0,047

0,4686

0,5831

0,5661

0,6728

0,57265

4

0,0481

0,4776

0,5726

0,5613

0,6728

0,571075

4

0,0471

0,4655

0,5831

0,5661

0,6728

0,571875

4

0,0472

0,4655

0,5831

0,5661

0,6728

0,571875

4

0,0487

0,4733

0,5883

0,5613

0,6613

0,57105

4

0,0488

0,4733

0,5883

0,5613

0,6613

0,57105

4

0,0475

0,4696

0,5795

0,5629

0,6728

0,5712

4

0,0476

0,4696

0,5795

0,5613

0,6728

0,5708

4

0,0682

0,5087

0,5169

0,5012

0,5405

0,516825

1

0,0326

0,3618

0,6744

0,5031

0,523

0,515575

4

0,0419

0,3825

0,5697

0,5854

0,6336

0,5428

3

0,0377

0,3924

0,5991

0,5135

0,6945

0,549875

Для алгоритма классификации символов методом одинарной аппроксимации были получены значения обобщенной F-меры на четырех стенографических документах при различных значениях настроечных параметров. Значения коэффициента X брались из диапазона от 0,025 до 0,155 с шагом 0,0001, а значения степени аппроксимирующего полинома – из диапазона от 0 до 10 с шагом 1. В табл. 1 приведены лучшие средние значения обобщенной F-меры. Последние четыре строки таблицы содержат максимальные значения обобщенной F-меры для каждой из стенограмм. При этом средние значения обобщенной F-меры в этих строках оказались заметно хуже, чем в остальных строках таблицы.

АЛГОРИТМ КЛАССИФИКАЦИИ СИМВОЛОВ МЕТОДОМ ДВОЙНОЙ АППРОКСИМАЦИИ

Задается степень аппроксимирующего полинома m . Для символов одной строки построим две полиномиальные аппроксимирующие функции: одну ф т ( x ) по точкам, являющимся серединами верхних сторон, и другую ф в ( x ) по точкам, являющимся серединами нижних сторон прямоугольников, в которые вписаны символы строки. При этом верхняя и нижняя стороны каждого такого прямоугольника параллельны оси абсцисс.

Пусть некоторый символ S вписан в прямоугольник, центр которого находится в точке с абсциссой xS , тогда аппроксимирующая функция, построенная по серединам верхних сторон прямоугольников, описывающих символы строки, принимает в данной точке значение yT = фт(xsC), а аппроксимирующая функция, построенная по серединам нижних сторон прямоугольников, описывающих символы строки, принимает значение y ав фв(xsc). Точки, лежа- щие на верхней стороне прямоугольника, описывающего символ S , имеют ординату yST , а точки, лежащие на нижней стороне, имеют ординату ySB . Определим новые значения ординат yST и ySB , которые зависят от взаимного расположения линий аппроксимаций и сторон прямоугольника, описывающего символ S .

Для

y S T :

если

ysT y а, , тогда ysT = y. ;

если

ys, y AB , тогда y S = y A ; TB   TB

если

yAK ys, yA, , тогда ys = ys BT T    TT

Аналогично для y S :

B

Классификация символов в стенографических документах на основные, надстрочные и подстрочные

  •    если y s B y T. , тогда y sb = y^ ;

  •    если ySB yAB , тогда y SB = yAB ; BB   BB

  •    если yAB " ysB " yAB , тогда y sb = ysB . BBT   BB

После чего выполним следующие действия:

  •    определим ординату центра отрезка, параллельного оси OY, ординаты концов которого равны соответственно y A и yA , и обозначим ее за y ;                     T B

AC

  •    определим ординату центра отрезка, параллельного оси OY, ординаты концов которого равны соответственно yST и y S , и обозначим ее за У S ;

приведены лучшие средние значения обобщенной F-меры.

Таблица 2

Лучшие средние значения обобщенной F-меры алгоритма классификации символов методом двойной аппроксимации

m

Обобщенная F-мера

Стенограмма

Среднее значение

№ 1

№ 2

№ 3

№ 4

4

0,5591

0,6886

0,5462

0,6756

0,617375

4

0,5524

0,6246

0,6287

0,6405

0,61155

4

0,5572

0,7172

0,4914

0,675

0,6102

4

0,5572

0,6

0,6506

0,6104

0,60455

4

0,5607

0,6558

0,5618

0,6344

0,603175

  •    определим длину отрезка, параллельного оси OY, ординаты концов которого равны соответственно y A и yA , и обозначим ее за h A ;

  •    определим длину отрезка, параллельного оси OY, ординаты концов которого равны соответственно y A и у S , и обозначим ее за h C .

Вероятность того, что символ S является основным, примем равной

P осн

( h A /2 - h e - hA /2

ОЦЕНКА АЛГОРИТМОВ КЛАССИФИКАЦИИ СИМВОЛОВ

В табл. 3 представлены лучшие оценки алгоритмов классификации символов методом одинарной аппроксимации и методом двойной аппроксимации на стенографических документах, приведенных в предыдущих таблицах.

Таблица 3

Лучшие оценки алгоритмов классификации символов

а вероятность того, что символ S является над-

строчным ( y S C Уа,с ) или подстрочным ( y S C y ,c ),

Оценка

Алгоритм классификации символов

Методом одинарной аппроксимации

Методом двойной аппроксимации

равной

= h C .

h A /2

На рис. 2 представлена схема с обозначениями, используемыми в вышеописанном алгоритме.

СТЕНОГРАМ МА № 1 (SAVE_LOG_DSCN4795)

Корректность

0,724

0,8368

Тип символов

Осн.

Надстр.

Подстр.

Осн.

Надстр.

Подстр.

Полнота

0,7838

0,5333

0,4854

0,952

0,2667

0,4078

Точность

0,8651

0,1143

0,5495

0,8617

0,2

0,84

F-мера

0,8225

0,1882

0,5155

0,9046

0,2286

0,549

Обобщенная F-мера

0,5087

0,5607

СТЕНОГРАМ МА № 2 (SAVE_LOG_DSCN4859)

Корректность

0,8728

0,8902

Тип символов

Осн.

Надстр.

Подстр.

Осн.

Надстр.

Подстр.

Полнота

0,9422

0,7333

0,3784

0,9558

0,6667

0,4595

Точность

0,9142

0,55

0,6087

0,9183

0,6667

0,68

F-мера

0,928

0,6286

0,4667

0,9367

0,6667

0,5484

Обобщенная F-мера

0,6744

0,7172

Рис. 2. Распознавание типов символов методом двойной аппроксимации

СТЕНОГРАМ МА № 3 (SAVE_LOG_DSCN4868)

Корректность

0,8418

0,8955

Тип символов

Осн.

Надстр.

Подстр.

Осн.

Надстр.

Подстр.

Полнота

0,9052

0,5625

0,375

0,9706

0,5

0,375

Точность

0,9203

0,375

0,4138

0,9224

0,5333

0,7059

F-мера

0,9127

0,45

0,3934

0,9459

0,5161

0,4898

Обобщенная F-мера

0,5854

0,6506

Для алгоритма классификации символов методом двойной аппроксимации были получены значения обобщенной F-меры на четырех стенографических документах, приведенных в предыдущей таблице, при значениях степени аппроксимирующего полинома, которые брались из диапазона от 0 до 10 с шагом 1. В табл. 2

СТЕНОГРАМ МА № 4 (SAVE_LOG_DSCN4871)

Корректность

0,8915

0,9009

Тип символов

Осн.

Надстр.

Подстр.

Осн.

Надстр.

Подстр.

Полнота

0,9834

0,625

0,2609

0,9945

0,5

0,3043

Точность

0,899

1

0,6667

0,9

0,8

1

F-мера

0,9393

0,7692

0,375

0,9449

0,6154

0,4667

Обобщенная F-мера

0,6945

0,6756

Как видно из приведенных результатов, на трех из четырех стенограмм алгоритм классификации символов методом двойной аппроксимации показал наилучший результат. Это связано с тем, что алгоритм распознавания надстрочных и подстрочных символов методом двойной аппроксимации менее чувствителен к размерам символов. Он учитывает и верхние, и нижние границы символов, а алгоритм распознавания надстрочных учитывает только центры символов, при этом возможна такая ситуация, когда центр крупного символа, который является основным в строке, совпадает с центром надстрочного или подстрочного символа.

ЗАКЛЮЧЕНИЕ

Рассмотренные в статье алгоритмы будут реализованы в создаваемой компьютерной программе для распознавания исторических стенограмм [2].

* Работа выполнена при поддержке Программы стратегического развития ПетрГУ на 2012–2016 гг.

CLASSIFICATION OF SYMBOLS IN SHORTHAND DOCUMENTS: BASIC, SUPERSCRIPT AND SUBSCRIPT

Список литературы Классификация символов в стенографических документах на основные, надстрочные и под строчные

  • Гиппиев М. Б., Жуков А. В., Рогов А. А., Скабин А. В. Распознавание строк в стенографических документах//Современные проблемы науки и образования. 2013. № 4 . Режим доступа: www.science-education.ru/110-9725
  • Рогов А. А., Скабин А. В., Штеркель И. А. Автоматизированная информационная система распознавания исторических рукописных документов//Информационная среда ВУЗА XXI века: Материалы VI Междунар. науч. конф. Куопио (Финляндия), 4-10 декабря 2012. Петрозаводск, 2012. С. 127-130.
  • Скабин А. В., Рогов А. А. Математическая модель распознавания символов//Ученые записки Петрозаводского государственного университета. Сер. «Естественные и технические науки». 2013. № 6 (135). С. 73-75.
  • Fischer S. A history of writing. London: Reaktion Books, 2004. 352 p.
  • Phillips G. Interpolation and Approximation by Polynomials. Burnaby: Springer Science & Business Media, 2003. 312 p.
  • Powers D. M. W. Evaluation: from precision, recall and f-measure to roc, informedness, markedness & correlation//Journal of Machine Learning Technologies. 2011. Vol. 2. № 1. P 37-63.
Статья научная