Математический подход к установлению авторства и времени создания текста на основе исследования его энтропии
Автор: Гоголева В.А., Шкарапута А.П.
Журнал: Вестник Пермского университета. Серия: Математика. Механика. Информатика @vestnik-psu-mmi
Рубрика: Механика. Математическое моделирование
Статья в выпуске: 4 (27), 2014 года.
Бесплатный доступ
Проведено исследование зависимости энтропии и частотных характеристик текста от времени его создания и авторства. Приведен краткий обзор существующих методик атрибуции и предложен новый подход, на основе анализа комплексной величины текста - энтропии, которая является одной из основных характеристик теории информации. Для исследования использовались художественные тексты, написанные в прозе на русском языке. Подробно рассмотрено понятие энтропии как комплексной характеристики текста. Приводятся примеры влияний различных произведений на частотный анализ текста. Показано, что энтропия как интегральная характеристика частотного анализа может быть использована для атрибуции текста, в частности для установления его авторства и времени создания. Для авторов разных веков взяты группы произведений и рассмотрены зависимости между авторством, энтропией, значением частотного анализа, годом и, соответственно, веком написания произведения. Показано, что для текстов отдельного автора энтропия имеет нормальное распределение. С помощью метода наименьших квадратов выведена линейная зависимость года создания произведения от энтропии текста во временном диапазоне XVII-XX в., произведен расчет точности полученной формулы. На основе частотного анализа подробно рассмотрены произведения XVII, XVIII, XIX и XX вв. Полученные в результате исследований значения объясняются различными факторами, влияющими на развитие литературного русского языка, некоторые из этих факторов приведены в работе. На основе исследования энтропии текстов, показано, что во многих случаях авторы имеют непересекающиеся или слабо пересекающиеся друг с другом диапазоны значений энтропии. Данный факт позволяет делать сравнительный анализ и судить о принадлежности конкретного произведения, конкретному автору, так в работе был рассмотрен вопрос с авторством произведения "Тихий Дон". Так как энтропия является объективной характеристикой текста, не зависящей от субъективных оценок и анализ текста на ее основе не является трудоемким, то можно говорить о новом математическом подходе к атрибуции текста в рамках информационных технологий.
Энтропия, частотный анализ, атрибуция текста
Короткий адрес: https://sciup.org/14729942
IDR: 14729942
Список литературы Математический подход к установлению авторства и времени создания текста на основе исследования его энтропии
- Хмелёв Д. Краткая история разработки методик определения авторского стиля. URL: http://rusf.ru/books/analysis/history.htm/(дата обращения: 16.07.2014)
- Милов Л.В., Бородкин Л.И., Иванова Т.В. От Нестора до Фонвизина: Новые методы определения авторства. М.: Изд. группа "Прогресс", 1994. 443 с.
- Родионова Е.С. Методы атрибуции художественных текстов//Структурная и прикладная лингвистика: Изд-во СПбГУ, 2008. Вып. 7. 127 с.
- Алферов А.П., Зубов А.Ю., Кузьмин А.С. и др. Основы криптографии. М.: Гелиос АРВ, 2002. 480 с.
- Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или другого известного автора//URL: http://www.textology.ru/library/book.aspx?bookId= 1 &textId=3 (дата обращения: 16.07.2014).
- Яглом АМ, Яглом И.М. Вероятность и информация. 3-е изд. М.: Наука, 1973. 511 с.
- Шеннон К. Работы по теории информации и кибернетике. М.: Изд-во иностранной литературы, 1963. 830 с.
- Марков А.А. Об одном применении статистического метода//URL: http://www.textology.ru/library/book.aspx?BookId=8&textId=2 (дата обращения: 16.07.2014).
- Статистические методы анализа литературного текста//URL: http://wiki.syktsu.ru/index.php/Статистические_методы_анализ а_литературного_текста (дата обращения: 16.07.2014).