Использование нечеткого сравнения строк при решении задачи автоматического переноса форматирования поэтических произведений
Бесплатный доступ
Создание научно-просветительского ресурса "Пушкин Цифровой" связано с необходимостью верстки стихотворных текстов на основе информации о верстке из других изданий. От издания к изданию тексты могут отличаться, и в каждом случае верстка осуществляется заново по правилам данного издания. Ручная верстка требует внимательности и существенных временных и трудовых затрат от специалиста, поскольку требуется сравнить несколько одинаковых текстов в нескольких изданиях. Представленный метод решает две задачи. Во-первых, определяется, насколько отличаются тексты в изданиях, обеспечивая возможность оценить количество ошибок или намеренных трансформаций текста, что является отдельным предметом исследования текстологов. Во-вторых, на основе оценки различия строк и нечеткого их сопоставления формируются правила верстки для каждой строки с учетом того, какие правила используются в ранних изданиях. Метод опробован на 914 текстах лирических произведений А.С. Пушкина, обеспечив корректный полный перенос верстки для 74,55% текстов, тогда как для 25,45% этого сделать не удалось и пришлось прибегнуть к ручной верстке.
Нечеткое сравнение строк, расстояние Левенштейна, форматирование, обработка текста
Короткий адрес: https://sciup.org/147251639
IDR: 147251639 | DOI: 10.14529/mmp250308