Математический подход к установлению авторства и времени создания текста на основе исследования его энтропии
Автор: Гоголева В.А., Шкарапута А.П.
Журнал: Вестник Пермского университета. Математика. Механика. Информатика @vestnik-psu-mmi
Рубрика: Механика. Математическое моделирование
Статья в выпуске: 4 (27), 2014 года.
Бесплатный доступ
Проведено исследование зависимости энтропии и частотных характеристик текста от времени его создания и авторства. Приведен краткий обзор существующих методик атрибуции и предложен новый подход, на основе анализа комплексной величины текста - энтропии, которая является одной из основных характеристик теории информации. Для исследования использовались художественные тексты, написанные в прозе на русском языке. Подробно рассмотрено понятие энтропии как комплексной характеристики текста. Приводятся примеры влияний различных произведений на частотный анализ текста. Показано, что энтропия как интегральная характеристика частотного анализа может быть использована для атрибуции текста, в частности для установления его авторства и времени создания. Для авторов разных веков взяты группы произведений и рассмотрены зависимости между авторством, энтропией, значением частотного анализа, годом и, соответственно, веком написания произведения. Показано, что для текстов отдельного автора энтропия имеет нормальное распределение. С помощью метода наименьших квадратов выведена линейная зависимость года создания произведения от энтропии текста во временном диапазоне XVII-XX в., произведен расчет точности полученной формулы. На основе частотного анализа подробно рассмотрены произведения XVII, XVIII, XIX и XX вв. Полученные в результате исследований значения объясняются различными факторами, влияющими на развитие литературного русского языка, некоторые из этих факторов приведены в работе. На основе исследования энтропии текстов, показано, что во многих случаях авторы имеют непересекающиеся или слабо пересекающиеся друг с другом диапазоны значений энтропии. Данный факт позволяет делать сравнительный анализ и судить о принадлежности конкретного произведения, конкретному автору, так в работе был рассмотрен вопрос с авторством произведения "Тихий Дон". Так как энтропия является объективной характеристикой текста, не зависящей от субъективных оценок и анализ текста на ее основе не является трудоемким, то можно говорить о новом математическом подходе к атрибуции текста в рамках информационных технологий.
Энтропия, частотный анализ, атрибуция текста
Короткий адрес: https://sciup.org/14729942
IDR: 14729942 | УДК: 808.1
Mathematical approach to the establishment of authorship and time of creation of text based on a study of entropy
Research of dependence of the entropy and the frequency characteristics of the text from the time of its creation and authorship. A brief review of existing methods of attribution and proposed a new approach, based on an analysis of the complex value of the text - the entropy, which is one of the main characteristics of information theory.. To study used literary texts, written in prose in Russian. Discussed in detail the concept of entropy as complex text characteristics. Are examples of the effects of various works on the frequency analysis. It is shown that not only the frequency analysis, but its integral characteristic - entropy, can be used for the attribution of the text that can serve as the creation of a new approach to the problem of authorship and time of creation of the text. For authors from different centuries to take a group of works and examined the relationship between authorship, entropy value of the frequency analysis, a year and a century of writing works. It is shown that for one author, entropy has a normal distribution. Using the method of least squares derived linear relationship, the creation of the work of the entropy of the text, calculated the accuracy of the derived formula. On the basis of frequency analysis discussed in detail texts from XVII, XVIII, XIX and XX centuries. Resulting from research on the value attributed to various factors influencing the development of the Russian literary language, some of these factors are given in this work. Calculated error resulting century works. Based on the study of the entropy of texts, it is shown that in many cases, the authors have non-overlapping or slightly overlapping each other ranges of values of entropy. This fact allows us to do a comparative analysis and judge accessories particular work, a particular author, so the work was considered a work of authorship "And Quiet Flows the Don". Because the entropy is an objective characteristic of the text, which does not depend on subjective assessments and analysis of the text based on it is not time consuming, it is possible to speak about a new mathematical approach to the attribution of the text in the framework of information technology.
Список литературы Математический подход к установлению авторства и времени создания текста на основе исследования его энтропии
- Хмелёв Д. Краткая история разработки методик определения авторского стиля. URL: http://rusf.ru/books/analysis/history.htm/(дата обращения: 16.07.2014)
- Милов Л.В., Бородкин Л.И., Иванова Т.В. От Нестора до Фонвизина: Новые методы определения авторства. М.: Изд. группа "Прогресс", 1994. 443 с.
- Родионова Е.С. Методы атрибуции художественных текстов//Структурная и прикладная лингвистика: Изд-во СПбГУ, 2008. Вып. 7. 127 с.
- Алферов А.П., Зубов А.Ю., Кузьмин А.С. и др. Основы криптографии. М.: Гелиос АРВ, 2002. 480 с.
- Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или другого известного автора//URL: http://www.textology.ru/library/book.aspx?bookId= 1 &textId=3 (дата обращения: 16.07.2014).
- Яглом АМ, Яглом И.М. Вероятность и информация. 3-е изд. М.: Наука, 1973. 511 с.
- Шеннон К. Работы по теории информации и кибернетике. М.: Изд-во иностранной литературы, 1963. 830 с.
- Марков А.А. Об одном применении статистического метода//URL: http://www.textology.ru/library/book.aspx?BookId=8&textId=2 (дата обращения: 16.07.2014).
- Статистические методы анализа литературного текста//URL: http://wiki.syktsu.ru/index.php/Статистические_методы_анализ а_литературного_текста (дата обращения: 16.07.2014).