Классификация символов в стенографических документах на основные, надстрочные и под строчные
Автор: Гиппиев Михаил Борисович, Рогов Александр Александрович
Журнал: Ученые записки Петрозаводского государственного университета @uchzap-petrsu
Рубрика: Физико-математические науки
Статья в выпуске: 8 (145) т.2, 2014 года.
Бесплатный доступ
При дешифровке исторических стенографических документов относительное местоположение символа влияет на его смысл. Мы определяем три позиции: основная, надстрочная или подстрочная. В работе приводятся результаты сравнения двух алгоритмов классификации символов по их положению методом одинарной и методом двойной аппроксимации. Параметры алгоритмов выбирались экспериментально, использовалась обучающая выборка. Для построения выборки вначале выделяются строки на стенограммах (в автоматическом режиме), а затем определяется тип каждого символа. Качество работы алгоритмов определяется пятью показателями: корректность, точность, полнота, F-мера и обобщенная F-мера. На основании обобщенной F-меры лучший результат показал алгоритм классификации символов методом двойной аппроксимации. Кроме того, для каждого алгоритма классификации определены оптимальные настроечные параметры, при которых среднее значение обобщенной F-меры на контрольной выборке является максимальным.
Стенографический документ, алгоритм классификации символов, надстрочные и подстрочные символы, метод аппроксимации
Короткий адрес: https://sciup.org/14750753
IDR: 14750753 | УДК: 51-74
Classification of symbols in shorthand documents: basic, superscript and subscript
When decoding historic shorthand documents, the relative position of symbols influences their meaning. We distinguish three positions: basic, superscript, or subscript. The article presents a comparison of two algorithms for symbols’ classification performed by single and double approximation methods. Algorithm parameters are chosen experimentally using a validation set. The set is created automatically by identifying lines and then defining the type of each symbol. The performance of the algorithms is measured in terms of accuracy, precision, recall, F-measure and summarized F-measure. Based on the summarized F-measure, the best result is achieved with the algorithm for symbols’ classification by a double approximation method. We tune the parameters for each algorithm that the summarized F-measure is maximized for the validation data.
Текст научной статьи Классификация символов в стенографических документах на основные, надстрочные и под строчные
Для правильной дешифровки исторических стенографических документов [4] требуется определить тип каждого символа (графемы), то есть отнести его к основным, надстрочным или подстрочным символам. Из-за искажений рукописного текста, связанных с привычками автора, скоростью письма, аккуратностью, наклоном текста в ту или иную сторону, заваливанием, исправлением, зачеркиванием текста и некоторыми другими факторами, точно решить эту задачу невозможно. В работе [3] предлагается математическая модель дешифровки стенограмм. Использование этой модели предполагает знание вероятности того, что стенографический символ относится к основным, надстрочным или подстрочным. В данной статье описываются два алгоритма вычисления этих вероятностей и результаты сравнения их работы. Оба алгоритма используют метод аппроксимации, так как проведенный анализ показал, что строки в стенографических документах, как правило, имеют форму, которую можно аппроксимировать полиномом некоторой степени.
Для объективного сравнения качества работы алгоритмов классификации символов была построена контрольная последовательность, то есть в стенографических документах были выделены строки и для каждого символа указан его тип. Оценки были рассчитаны путем сравнения результатов работы алгоритма классификации символов с контрольной последовательностью. Были рассмотрены корректность, которая рассчитывается как отношение количества правильно классифицированных символов к общему количеству символов, точность, полнота и F-мера [6] для каждого типа символов, а также обобщенная F-мера, представляющая собой среднее значение оценок F-меры для каждого типа символов.
При оценке считалось, что символ относится к тому или иному типу, если вероятность данного события превышала 50 процентов. Кроме того, разбиение символов на строки выполнялось с помощью алгоритма распознавания строк методом построения графа связей, описанного в работе [1]. В качестве итоговой оценки, на основании которой проводилось оценивание качества алгоритмов классификации символов, была выбрана обобщенная F-мера.
АЛГОРИТМ КЛАССИФИКАЦИИ СИМВОЛОВ МЕТОДОМ ОДИНАРНОЙ АППРОКСИМАЦИИ
Задается степень аппроксимирующего полинома m [5]. Предположим, что для каждого стенографического символа известны его размеры и то, к какой строке он относится. Строим полиномиальную аппроксимирующую функцию
степени m по центрам символов одной строки (рис. 1). Кривую, заданную аппроксимирующей функцией, будем называть линией аппроксимации. Определяем расстояния между центрами символов и линией аппроксимации. Обозначим это расстояние для некоторого символа за е . Тогда вероятность того, что данный символ является основным, будем считать равной
P осн = e - λε , (1)
а вероятность того, что данный символ является надстрочным, в случае если он расположен над линией аппроксимации, либо подстрочным, если он расположен под линией аппроксимации, равной
-λε неосн e
,
где X - некоторый коэффициент, который подбирается в зависимости от стенограммы. При этом Pосн
+ P
= 1.
неосн
Рис. 1. Распознавание типов символов методом одинарной аппроксимации
О
Таблица 1
Лучшие средние значения обобщенной F-меры алгоритма классификации символов методом одинарной аппроксимации
|
m |
λ |
Обобщенная F-мера |
||||
|
Стенограмма |
Среднее значение |
|||||
|
№ 1 |
№ 2 |
№ 3 |
№ 4 |
|||
|
4 |
0,0473 |
0,4696 |
0,5831 |
0,5661 |
0,6728 |
0,5729 |
|
4 |
0,0474 |
0,4696 |
0,5831 |
0,5661 |
0,6728 |
0,5729 |
|
4 |
0,047 |
0,4686 |
0,5831 |
0,5661 |
0,6728 |
0,57265 |
|
4 |
0,0481 |
0,4776 |
0,5726 |
0,5613 |
0,6728 |
0,571075 |
|
4 |
0,0471 |
0,4655 |
0,5831 |
0,5661 |
0,6728 |
0,571875 |
|
4 |
0,0472 |
0,4655 |
0,5831 |
0,5661 |
0,6728 |
0,571875 |
|
4 |
0,0487 |
0,4733 |
0,5883 |
0,5613 |
0,6613 |
0,57105 |
|
4 |
0,0488 |
0,4733 |
0,5883 |
0,5613 |
0,6613 |
0,57105 |
|
4 |
0,0475 |
0,4696 |
0,5795 |
0,5629 |
0,6728 |
0,5712 |
|
4 |
0,0476 |
0,4696 |
0,5795 |
0,5613 |
0,6728 |
0,5708 |
|
4 |
0,0682 |
0,5087 |
0,5169 |
0,5012 |
0,5405 |
0,516825 |
|
1 |
0,0326 |
0,3618 |
0,6744 |
0,5031 |
0,523 |
0,515575 |
|
4 |
0,0419 |
0,3825 |
0,5697 |
0,5854 |
0,6336 |
0,5428 |
|
3 |
0,0377 |
0,3924 |
0,5991 |
0,5135 |
0,6945 |
0,549875 |
Для алгоритма классификации символов методом одинарной аппроксимации были получены значения обобщенной F-меры на четырех стенографических документах при различных значениях настроечных параметров. Значения коэффициента X брались из диапазона от 0,025 до 0,155 с шагом 0,0001, а значения степени аппроксимирующего полинома – из диапазона от 0 до 10 с шагом 1. В табл. 1 приведены лучшие средние значения обобщенной F-меры. Последние четыре строки таблицы содержат максимальные значения обобщенной F-меры для каждой из стенограмм. При этом средние значения обобщенной F-меры в этих строках оказались заметно хуже, чем в остальных строках таблицы.
АЛГОРИТМ КЛАССИФИКАЦИИ СИМВОЛОВ МЕТОДОМ ДВОЙНОЙ АППРОКСИМАЦИИ
Задается степень аппроксимирующего полинома m . Для символов одной строки построим две полиномиальные аппроксимирующие функции: одну ф т ( x ) по точкам, являющимся серединами верхних сторон, и другую ф в ( x ) по точкам, являющимся серединами нижних сторон прямоугольников, в которые вписаны символы строки. При этом верхняя и нижняя стороны каждого такого прямоугольника параллельны оси абсцисс.
Пусть некоторый символ S вписан в прямоугольник, центр которого находится в точке с абсциссой xS , тогда аппроксимирующая функция, построенная по серединам верхних сторон прямоугольников, описывающих символы строки, принимает в данной точке значение yT = фт(xsC), а аппроксимирующая функция, построенная по серединам нижних сторон прямоугольников, описывающих символы строки, принимает значение y ав фв(xsc). Точки, лежа- щие на верхней стороне прямоугольника, описывающего символ S , имеют ординату yST , а точки, лежащие на нижней стороне, имеют ординату ySB . Определим новые значения ординат yST и ySB , которые зависят от взаимного расположения линий аппроксимаций и сторон прямоугольника, описывающего символ S .
|
Для |
y S T : |
|
если |
ysT > y а, , тогда ysT = y. ; |
|
если |
ys, < y AB , тогда y S = y A ; TB TB |
|
если |
yAK ys, yA, , тогда ys = ys BT T TT |
Аналогично для y S :
B
Классификация символов в стенографических документах на основные, надстрочные и подстрочные
-
• если y s B > y T. , тогда y sb = y^ ;
-
• если ySB < yAB , тогда y SB = yAB ; BB BB
-
• если yAB " ysB " yAB , тогда y sb = ysB . BBT BB
После чего выполним следующие действия:
-
• определим ординату центра отрезка, параллельного оси OY, ординаты концов которого равны соответственно y A и yA , и обозначим ее за y ; T B
AC
-
• определим ординату центра отрезка, параллельного оси OY, ординаты концов которого равны соответственно yST и y S , и обозначим ее за У S ;
приведены лучшие средние значения обобщенной F-меры.
Таблица 2
Лучшие средние значения обобщенной F-меры алгоритма классификации символов методом двойной аппроксимации
|
m |
Обобщенная F-мера |
||||
|
Стенограмма |
Среднее значение |
||||
|
№ 1 |
№ 2 |
№ 3 |
№ 4 |
||
|
4 |
0,5591 |
0,6886 |
0,5462 |
0,6756 |
0,617375 |
|
4 |
0,5524 |
0,6246 |
0,6287 |
0,6405 |
0,61155 |
|
4 |
0,5572 |
0,7172 |
0,4914 |
0,675 |
0,6102 |
|
4 |
0,5572 |
0,6 |
0,6506 |
0,6104 |
0,60455 |
|
4 |
0,5607 |
0,6558 |
0,5618 |
0,6344 |
0,603175 |
-
• определим длину отрезка, параллельного оси OY, ординаты концов которого равны соответственно y A и yA , и обозначим ее за h A ;
-
• определим длину отрезка, параллельного оси OY, ординаты концов которого равны соответственно y A и у S , и обозначим ее за h C .
Вероятность того, что символ S является основным, примем равной
P осн
( h A /2 - h e - hA /2
ОЦЕНКА АЛГОРИТМОВ КЛАССИФИКАЦИИ СИМВОЛОВ
В табл. 3 представлены лучшие оценки алгоритмов классификации символов методом одинарной аппроксимации и методом двойной аппроксимации на стенографических документах, приведенных в предыдущих таблицах.
Таблица 3
Лучшие оценки алгоритмов классификации символов
а вероятность того, что символ S является над-
строчным ( y S C > Уа,с ) или подстрочным ( y S C < y ,c ),
|
Оценка |
Алгоритм классификации символов |
|
|
Методом одинарной аппроксимации |
Методом двойной аппроксимации |
|
равной
= h C .
h A /2
На рис. 2 представлена схема с обозначениями, используемыми в вышеописанном алгоритме.
СТЕНОГРАМ МА № 1 (SAVE_LOG_DSCN4795)
|
Корректность |
0,724 |
0,8368 |
||||
|
Тип символов |
Осн. |
Надстр. |
Подстр. |
Осн. |
Надстр. |
Подстр. |
|
Полнота |
0,7838 |
0,5333 |
0,4854 |
0,952 |
0,2667 |
0,4078 |
|
Точность |
0,8651 |
0,1143 |
0,5495 |
0,8617 |
0,2 |
0,84 |
|
F-мера |
0,8225 |
0,1882 |
0,5155 |
0,9046 |
0,2286 |
0,549 |
|
Обобщенная F-мера |
0,5087 |
0,5607 |
||||
СТЕНОГРАМ МА № 2 (SAVE_LOG_DSCN4859)
|
Корректность |
0,8728 |
0,8902 |
||||
|
Тип символов |
Осн. |
Надстр. |
Подстр. |
Осн. |
Надстр. |
Подстр. |
|
Полнота |
0,9422 |
0,7333 |
0,3784 |
0,9558 |
0,6667 |
0,4595 |
|
Точность |
0,9142 |
0,55 |
0,6087 |
0,9183 |
0,6667 |
0,68 |
|
F-мера |
0,928 |
0,6286 |
0,4667 |
0,9367 |
0,6667 |
0,5484 |
|
Обобщенная F-мера |
0,6744 |
0,7172 |
||||
Рис. 2. Распознавание типов символов методом двойной аппроксимации
СТЕНОГРАМ МА № 3 (SAVE_LOG_DSCN4868)
|
Корректность |
0,8418 |
0,8955 |
||||
|
Тип символов |
Осн. |
Надстр. |
Подстр. |
Осн. |
Надстр. |
Подстр. |
|
Полнота |
0,9052 |
0,5625 |
0,375 |
0,9706 |
0,5 |
0,375 |
|
Точность |
0,9203 |
0,375 |
0,4138 |
0,9224 |
0,5333 |
0,7059 |
|
F-мера |
0,9127 |
0,45 |
0,3934 |
0,9459 |
0,5161 |
0,4898 |
|
Обобщенная F-мера |
0,5854 |
0,6506 |
||||
Для алгоритма классификации символов методом двойной аппроксимации были получены значения обобщенной F-меры на четырех стенографических документах, приведенных в предыдущей таблице, при значениях степени аппроксимирующего полинома, которые брались из диапазона от 0 до 10 с шагом 1. В табл. 2
СТЕНОГРАМ МА № 4 (SAVE_LOG_DSCN4871)
|
Корректность |
0,8915 |
0,9009 |
||||
|
Тип символов |
Осн. |
Надстр. |
Подстр. |
Осн. |
Надстр. |
Подстр. |
|
Полнота |
0,9834 |
0,625 |
0,2609 |
0,9945 |
0,5 |
0,3043 |
|
Точность |
0,899 |
1 |
0,6667 |
0,9 |
0,8 |
1 |
|
F-мера |
0,9393 |
0,7692 |
0,375 |
0,9449 |
0,6154 |
0,4667 |
|
Обобщенная F-мера |
0,6945 |
0,6756 |
||||
Как видно из приведенных результатов, на трех из четырех стенограмм алгоритм классификации символов методом двойной аппроксимации показал наилучший результат. Это связано с тем, что алгоритм распознавания надстрочных и подстрочных символов методом двойной аппроксимации менее чувствителен к размерам символов. Он учитывает и верхние, и нижние границы символов, а алгоритм распознавания надстрочных учитывает только центры символов, при этом возможна такая ситуация, когда центр крупного символа, который является основным в строке, совпадает с центром надстрочного или подстрочного символа.
ЗАКЛЮЧЕНИЕ
Рассмотренные в статье алгоритмы будут реализованы в создаваемой компьютерной программе для распознавания исторических стенограмм [2].
* Работа выполнена при поддержке Программы стратегического развития ПетрГУ на 2012–2016 гг.
CLASSIFICATION OF SYMBOLS IN SHORTHAND DOCUMENTS: BASIC, SUPERSCRIPT AND SUBSCRIPT
Список литературы Классификация символов в стенографических документах на основные, надстрочные и под строчные
- Гиппиев М. Б., Жуков А. В., Рогов А. А., Скабин А. В. Распознавание строк в стенографических документах//Современные проблемы науки и образования. 2013. № 4 . Режим доступа: www.science-education.ru/110-9725
- Рогов А. А., Скабин А. В., Штеркель И. А. Автоматизированная информационная система распознавания исторических рукописных документов//Информационная среда ВУЗА XXI века: Материалы VI Междунар. науч. конф. Куопио (Финляндия), 4-10 декабря 2012. Петрозаводск, 2012. С. 127-130.
- Скабин А. В., Рогов А. А. Математическая модель распознавания символов//Ученые записки Петрозаводского государственного университета. Сер. «Естественные и технические науки». 2013. № 6 (135). С. 73-75.
- Fischer S. A history of writing. London: Reaktion Books, 2004. 352 p.
- Phillips G. Interpolation and Approximation by Polynomials. Burnaby: Springer Science & Business Media, 2003. 312 p.
- Powers D. M. W. Evaluation: from precision, recall and f-measure to roc, informedness, markedness & correlation//Journal of Machine Learning Technologies. 2011. Vol. 2. № 1. P 37-63.