Бинаризация и выделение символов исторической стенограммы
Автор: Скабин Артем Викторович, Рогов Александр Александрович
Журнал: Ученые записки Петрозаводского государственного университета @uchzap-petrsu
Рубрика: Физико-математические науки
Статья в выпуске: 4 (133), 2013 года.
Бесплатный доступ
Рассматривается проблема бинаризации исторических рукописных документов с целью выделения графики символов. От точности и правильности бинаризации текста зависит правильность результата дешифровки исторического документа. В качестве объекта взяты исторические стенограммы XIX века. Проводится анализ различных методов бинаризации (методы Отсу, Бернсена, Эйквиля, Ниблэка, разнообразные пороговые методы). Проведенное исследование выявило, что предлагаемый модифицированный пороговый метод показал лучший результат на основании F-меры. Данный метод применен в программном комплексе для получения оригинальной графики символов. При помощи разработанного программного комплекса были разобраны 29 листов стенограмм. На них было выделено более 6800 график символов.
Методы бинаризации, исторические рукописные документы, стенограммы
Короткий адрес: https://sciup.org/14750422
IDR: 14750422
Текст научной статьи Бинаризация и выделение символов исторической стенограммы
В настоящее время из-за невозможности дешифровки исторических документов современными исследователями в архивах России хранится большой объем нерасшифрованных стенографических документов. Основная сложность дешифровки стенограмм заключается в том, что современная стенография существенно отличается от исторических систем стенографии XIX века и нет людей, обладающих знаниями о системах стенографической записи в XIX – начале XX века. Наиболее естественной выглядит автоматизация данного процесса с использованием современных компьютерных технологий. Для автоматизации расшифровки исторических рукописных документов необходимо решить следующие задачи:
-
• выделение символов (как правило, это бинаризация документа);
-
• выделение полного набора стенографических символов (задача кластеризации);
-
• разделение связных стенографических символов;
-
• база знаний дешифровки символов;
-
• выделение строк, а также надстрочных и подстрочных символов;
-
• дешифровка стенограммы.
БИНАРИЗАЦИЯ СТЕНОГРАММЫ
Бинаризация исторических рукописных документов осложнена их плохим состоянием (пожелтевшая бумага, написаны простым карандашом, на бумаге существуют разрывы, грязь, просвечи
вание с обратной стороны листа и т.д.). Для выбора наиболее эффективного метода бинаризации исторических стенограмм Сниткиной (наброски к «Дневнику писателя» за 1881 год и «Из воспоминаний А. Г. Достоевской») было рассмотрено 7 различных методов бинаризации. На рис. 1а представлен фрагмент одной из рассмотренных стенограмм, на рис. 1b – его эталонная бинаризация.

Рис. 1. a – фрагмент стенограммы, b – эталонная бинаризация, c – метод Отсу, d – метод Бернсена, e – метод Эйкви-ля, f – метод Ниблэка, g – модифицированный пороговый метод, h – Гауссовское размытие, k – результат модифицированного порогового метода на Гауссовском размытии
МЕТОД ОТСУ
Метод Отсу [10] используется для пороговой бинаризации полутоновых изображений. При обработке изображений данным методом подразумевается наличие пикселей двух классов: фоновые и пиксели, относящиеся к текстовой информации изображения. Метод заключается в поиске оптимального порога бинаризации, который разделяет изображение на два вышеописанных класса таким образом, чтобы их внутриклассовая дисперсия была минимальной. Она определяется как взвешенная сумма дисперсий двух классов:
^2 ( t )= ^ ( t ) ^12 ( t ) + ^2 ( t ) CT 22 ( t ) , (1)
где a>|, ro2 - веса, вероятности двух классов, раз- деленных порогом t, ст1, ст2 - дисперсия этих классов. Результат работы метода Отсу представлен на рис. 1с.
МЕТОД БЕРНСЕНА
Метод Бернсена [7] является локальным пороговым методом бинаризации, при котором пороги рассчитываются исходя из значений уровня яркости пикселей из квадратной окрестности пикселя p i , j . Данный алгоритм заключается в следующем: для каждого пикселя p i , j находится максимальное Y max и минимальное Y min значение уровня яркости. Яркость пикселя рассчитывается по формуле (2) [3]
Y = 0,299 ■ R + 0,5876 ■ G + 0,114 ■ B , (2)
где R – значение красной компоненты пикселя, G – значение зеленой компоненты пикселя, B – значение синей компоненты пикселя. Далее, если уровень контраста – разность между минимальным и максимальным значениями яркости – больше некого порога, тогда данный пиксель относят к классу пикселей символов, иначе – к классу фона. Недостатком данного метода является то, что при обработке монотонных (по яркости) областей появляется большое количество помех и шумов. Результат работы метода Бернсена представлен на рис. 1d.
МЕТОД ЭЙКВИЛЯ
Метод Эйквиля [8] является одним из самых производительных методов бинаризации. Он часто применяется для обработки четких и контрастных изображений. В данном методе используются два скользящих, обычно квадратных окна: малого S и большого W. Данные окна накладываются с шагом, равным ширине малого окна.
Для всех пикселей большего окна вычисляется оптимальный порог по методу Отсу, если разница математического ожидания уровней яркости в двух кластерах больше некоторого поро- га, заданного пользователем р0 - рл ^ £. Тогда пиксели малого окна бинаризуются в зависимости от найденного порога. Если же р0 - pj < £, тогда все пиксели малого окна относятся к классу с ближайшим средним значением. Результат работы метода Эйквиля представлен на рис. 1e.
МЕТОД НИБЛЭКА
Метод Ниблэка [9] является быстрым локальным адаптивным методом бинаризации. Зачастую данный метод используется без бинаризации контрастных изображений с плавными переходами яркости и малым количеством шума.
Пороговое значение для бинаризации пикселя p i , j находится по следующей формуле:
t (i, j ) = Р (i, j)- kCT (i, j), где p(i, j) - среднее, ст(i, j) - среднеквадратичное отклонение в окрестности пикселя pi,j.
Размер окрестности для расчета порога бинаризации пикселя выбирается достаточно большой, чтобы снизить влияние локального шума, но не настолько, чтобы при обработке терялись локальные детали бинаризуемого изображения. Результат работы метода Ниблэка представлен на рис. 1f.
ПОРОГОВЫЕ МЕТОДЫ БИНАРИЗАЦИИ
Существует большое множество различных пороговых методов бинаризации изображений: бинаризация с нижним порогом, с верхним порогом, с двойным ограничением и т. д. Сложность использования данных методов заключается в правильном расчете порога бинаризации. Эти методы являются высокопроизводительными, но дающими большое количество шума и неточностей. Суть данных методов заключается в том, чтобы выбрать некий порог, такой, что:
' pi , j
/ 0, P , j ^ t
, 1, P ,, j < t .
МОДИФИЦИРОВАННЫЙ ПОРОГОВЫЙ МЕТОД
Из-за состаренности изображения и того, что стенографические записи сделаны простым карандашом на пожелтевшей бумаге, пороговый метод по цветовым компонентам (RGB) оказался неприемлемым для данной задачи, так как пиксели фона и символов имеют схожие значения цветовых компонент. Как видно на гистограммах (рис. 2), отсутствие двух явно выраженных пиков не позволяет выбрать пороговое значение для бинаризации. Такие же результаты получаются (рис. 2), если использовать разложение по цветовой схеме HSB (оттенок, насыщенность, яркость). Производя бинаризацию только по пороговому значению яркости, удалось получить четкие символы с малым количеством шума [4].

Рис. 2. Гистограммы цветовых схем RGB (а) и HSB (б)
Аналогичные результаты получены в [1] при распознавании банковских чеков.
Экспериментально было найдено пороговое значение яркости, при котором символы получаются наиболее четкими, с наименьшим количеством шума. Наилучший результат достигается, если доля черных пикселей после бинаризации приближается к 13 % от общего числа пикселей. Результат работы модифицированного порогового метода представлен на рис. 1g.
Для улучшения результатов бинаризации используют различные методы предобработки изображения: эвристический метод порогового отсечения без параметров, методы пространственной фильтрации, применяющие лапласиан, методы выделения границ, методы сглаживания [5]. В данной статье рассматривается размытие Гаусса, примененное к исходному фрагменту (рис. 1h). Результат работы модифицированного порогового метода на предобработанном изображении показан на рисунке 1k.
РЕЗУЛЬТАТЫ СРАВНЕНИЯ МЕТОДОВ
Оценка результатов работы различных методов бинаризации исторических рукописных документов была проведена на основе критериев полноты, точности и F-меры [2]. Точность
Результаты сравнения методов бинаризации
Исходя из полученных значений F-меры пороговый модифицированный метод демонстрирует наилучшие показатели при бинаризации рукописных исторических документов.
КОМПЬЮТЕРНАЯ СИСТЕМА БИНАРИЗАЦИИ И ВЫДЕЛЕНИЯ СИМВОЛОВ
Для распознавания исторических стенографических рукописных документов необходимо иметь весь набор символов, который использовал стенографист для записи. Для этого была создана автоматизированная система получения и разделения оригинальной графики символов. После запуска системы пользователь видит перед собой рабочую область (рис. 3), которая разделена на две части. Пользователь при помощи пункта меню «Файл» → «Загрузить» загружает оригинальную стенограмму для разбора. После загрузки она отображается в левой рабочей области, а в правой отображаются уже разобранные ранее символы. После этого пользователь в левой части выделяет прямоугольную область, содержащую разбираемый символ, оригинальную графику которого он хочет получить. Выделение дублируется в правой рабочей области. С помощью пунктов меню «Распознание» → «Распознать символ» или же горячей клавишей начинается распознание символа. Компьютерная программа с помощью модифицированного порогового метода бинаризует выделенный фрагмент стенограммы, удаляет шумы и производит определение связанных фрагментов.
Пользователю предъявляется найденный символ (рис. 4). В случае, если символ разбивается на отдельные фрагменты, то пользователю предъявляются все фрагменты, а он выбирает те, которые, по его мнению, относятся к текущему символу, при этом система производит связывание разорванных фрагментов. Если же, по мнению пользователя, символ неполностью схож с первоначальным (произошло слияние, разрыв символа), то предусмотрена возможность его дополнительного редактирования (кнопка «Редактировать выбранные»). Пользователю представляется упрощенный графический редактор для символов.
После бинаризации символа система производит поиск в текущей базе данных похожих символов и предлагает пользователю выбрать из найденных или же добавить новый символ. Степень похожести определяется на основе комбинированного алгоритма. В настоящий момент

Рис. 3. Рабочая область системы получения оригинальной графики символов

Рис. 4. Результаты обработки различных фрагментов стенограммы
мы работаем над его улучшением. При добавлении символа пользователь может указать зачеркнутые и нестенографические символы. Эта информация отображается в правой области цветом символов. Черный цвет означает стенографические символы, а красный – все остальные, включая зачеркнутые стенографистом символы.
Данная система получения оригинальной графики стенографических символов использовалась при обработке 29 листов стенограмм. На них было выделено более 6800 график символов, которые были разбиты с помощью модифицированного метода «сравнения контуров», описанного в [6], на более чем 400 групп (различные стенографические символы, буквы, цифры, слова). Проверить правильность разбиения можно только в процессе дешифровки, первые результаты которой обнадеживают.
ЗАКЛЮЧЕНИЕ
В процессе анализа стенограмм было выявлено, что по цветовым компонентам значение пикселей текста и фона находятся в небольшой окрестности некоторого значения, что означает низкую эффективность стандартных пороговых методов. Локальные пороговые методы, такие как Эйквиля и Ниблэка, при бинаризации дают хорошую полноту, но из-за большого количества шума, который не убирается при помощи удаления связанных компонент малой площади, точность их работы уменьшается. Наилучший результат работы показал модифицированный пороговый метод, при удалении шума он дает наибольшее значение F-меры. Повысить качество распознавания может предварительная обработка листов стенограмм [5]. В будущем мы планируем провести соответствующие эксперименты.
С компьютерной системой дешифровки стенограмм должен работать исследователь, поэтому одно из основных условий используемых методов в этой системе – быстродействие. Необходимо создать комфортные условия работы с системой, пользователь не должен длительное время проводить в ожидании выполнения той или иной операции. Это условие накладывает существенные ограничения на используемые алгоритмы.
* Работа поддержана грантом РГНФ № 11-01-12026в (руководитель – А. А. Рогов).
BINARIZATION AND ISOLATION OF HISTORICAL MANUSCRIPTS’ SYMBOLS
Список литературы Бинаризация и выделение символов исторической стенограммы
- Горский Н., Анисимов В., Горская Л. Распознавание рукописного текста: от теории к практике. СПб.: Политехника, 1997. 126 с.
- Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск: Пер. с англ. М.: ООО «И. Д. Вильямс», 2011. 528 с.
- Порев В. Н. Компьютерная графика. СПб.: БХВ-Петербург, 2002. 432 с.
- Рогов А. А., Скабин А. В., Штеркель И. А. О дешифровке исторических рукописных документов//Информационные технологии и письменное наследие El’Manuscript 2012: Материалы IV Междунар. науч. конф. Петрозаводск, 3-8 сентября 2012. Петрозаводск, 2012. С. 230-233.
- Талбонен А. Н., Рогов А. А. Анализ машинописных подписей к фотографиям в цифровом историческом альбоме//Ученые записки Петрозаводского государственного университета. Сер. «Естественные и технические науки». 2012. № 2 (123). С. 109-113.
- Belongie S., Malik J., Puzicha J. Shape matching and object recognition using shape contexts//IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24. № 4. P. 509-522.
- Bernsen J. Dynamic thresholding of grey-level images//Proc. 8th International Conference on Pattern Recognition (ICPR8). Paris, 1986. P. 1251-1255.
- Eikvil L., Taxt T., Moen K. A fast adaptive method for binarization of document images//Proc. 1st Int. Conf. Document Analysis and Recognition. Saint-Malo, 1991. P. 435-443.
- Niblack W. An Introduction to Digital Image Processing. Englewood Cliffs, N. J.: Prentice Hall, 1986. P. 115-116.
- Otsu N. A threshold selection method from gray-level histograms//IEEE Transactions on Systems, Man, and Cybernetics. 1979. Vol. SMC-9. P. 62-66.