Естественный текст: математические методы атрибуции
Автор: Попов Владимир Валентинович, Штельмах Татьяна Владимировна
Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics
Рубрика: Материалы и сообщения
Статья в выпуске: 2 т.18, 2019 года.
Бесплатный доступ
В статье предложено два алгоритма фильтрации некачественных текстов. Первый алгоритм основан на том, что частота появления n-грамм в качественном тексте подчиняется закону Зипфа, а в случайно генерированных текстах данный закон перестает действовать. Сравнение частотных характеристик двух типов текстов позволяет делать выводы относительно качества исходного текста. Второй алгоритм основан на сравнении скорости появления новых слов в текстах. В качественном тексте эта скорость, как правило, неравномерна, а в случайных текстах неравномерности нивелируются, что дает возможность обнаруживать некачественные тексты. Основные методы решения задачи фильтрации некачественных текстов - статистические. Они базируются на вычислении различных частотных характеристик текста. В отличие от модели «мешка слов», не учитывающей порядок следования слов в тексте, графовая модель текста (в ней вершинами являются слова или словоформы, а ребрами - пары слов), а также модели со структурами более высокого порядка, в которых используются частотные характеристики n-грамм при n > 2, позволяют учитывать взаимное расположение пар и троек слов в какой-либо общей части текста: в одном предложении или одной n-грамме.
Естественный текст, псевдотекст, фильтрация текстов, закон зипфа, n-граммы, скорость появления новых слов, "мешок слов", графовая модель текста
Короткий адрес: https://sciup.org/149129962
IDR: 149129962 | УДК: 81’42 | DOI: 10.15688/jvolsu2.2019.2.13
Natural text: mathematical methods of attribution
The article proposes two algorithms for substandard texts filtering. The first of these is based on the fact that the frequency of n -grams occurrence in a qualitytext obeys the Zipf law, and when the words of the text are rearranged, the law ceases to act. Comparison of the frequency characteristics of the source text with the characteristics of the text resulting from the permutation of words enables researchers to draw conclusions regarding the quality of the source text. The second algorithm is based on calculating and comparing the rate new words appear in good quality and randomly generated texts. In a good text, this rate is, as a rule, uneven whereas in randomly generated texts, this unevenness is smoothed out, which makes it possible to detect low-quality texts. The methods for solving the problem of substandard texts filtering are statistical and are based on the calculation of various frequency characteristics of the text. As compared to the “bag of words” model, a graph model of the text, in which the vertices are words or word forms, and the edges are pairs of words, as well as models with higher order structures, in which the frequency characteristics of n -grams are used with n > 2, takes into account the mutual disposition of word pairs, as well as triples of words in a common part of the text, for example,in one sentence or one n -gram.
Список литературы Естественный текст: математические методы атрибуции
- Бузикашвили Н. Е., Самойлов Д. В., Крылова Г. А., 2000. N-граммы в лингвистике // Методы и средства работы с документами: сб. ст. М.: Едиториал УРРС. С. 91-130.
- Выготский Л. С., 1999. Мышление и речь. Изд. 5-е, испр. М.: Лабиринт. 352 с.
- Гальперин И. Р., 2006. Текст как объект лингвистического исследования. 4-е изд. стер. М.: КомКнига. 144 с.
- Головин Б. Н., 1970. Язык и статистика. М.: Просвещение. 190 с.
- Григорьева Е. Г., Клячин В. А., Помельников Ю. В., Попов В. В., 2017. Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса // Вестник Волгоградского государственного университета. Серия 2, Языкознание. Т. 16, № 2. С. 58-67. DOI: 10.15688/jvolsu2.2017.2.6
- Иорданская Л. Н., Мельчук И. А., 2007. Смысл и сочетаемость в словаре. М.: Языки славянских культур. 672 с.
- Леонтьев А. А., 1979. Понятие текста в современной лингвистике и психолингвистике // Психолингвистическая и лингвистическая природа текста и особенности его восприятия / под ред. Ю. А. Жлуктенко, А. А. Леонтьева. Киев: Вища школа. С. 7-17.
- Мурзин Л. Н., Штерн А. С., 1991. Текст и его восприятие. Свердловск: Изд-во УГУ. 172 с.
- Новиков А. И., 1983. Семантика текста и ее формализация. М.: Наука. 215 с.
- Пиотровский Р. Г., 1975. Текст, машина, человек. Л.: Наука. 327 с.
- Bakalov A., McCallum A., Wallach H., Mimno D., 2012. Topic models for taxonomies // Proceedings of the 12th ACM/IEEE-CS joint conference on digital libraries (Washington, DC, USA, June 10 -14, 2012). P. 237- 240.
- DOI: 10.1145/2232817.2232861
- Baker J. C., 1988. Pace: ATest of Authorship Based on the Rate at which New Words Enter an Author's Text // Literary and Linguistic Computing. Vol. 3, no. 1. P. 36-39.
- Cavnar W., Trenkle J., 2001. N-Gram-Based Text Categorization. URL: https://www.researchgate.net/publication/2375544_N-Gram-Based_Text_Categorization.
- McIntyre D., Walker B., 2019. Corpus Stylistics: Theory and Practice. Edinburgh University Press. 376 p.
- Wallach H. M., 2006. Topic modeling: beyond bag-of-words // Proceedings of the 23rd international conference on Machine learning (Pittsburgh, Pennsylvania, USA, June 25-29, 2006). Р. 977-984.
- DOI: 10.1145/1143844.1143967
- Yao L., Mimno D., McCallum A., 2009. Efficient methods for topic model inference on streaming document collections // Proceedings of the 15th ACM SIGKDD international conference on knowledge discovery and data mining (Paris, France, June 28 - July 01, 2009). Р. 937-946.
- DOI: 10.1145/1557019.1557121
- Zeng Q. T., Redd D., Rindflesch T. C., Nebeker J. R., 2012. Synonym, topic model and predicate-based query expansion for retrieving clinical documents // AMIA. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540443.
- ТВ3.ру, 2018 - «Нейро-Гоголь» вошел в шорт-лист Red Apple // ТВ3.ру. URL: https://tv3.ru/post/luchshaya-innovatsiya-v-reklame (дата обращения: 25.01.2019).