Естественный текст: математические методы атрибуции

Автор: Попов Владимир Валентинович, Штельмах Татьяна Владимировна

Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics

Рубрика: Материалы и сообщения

Статья в выпуске: 2 т.18, 2019 года.

Бесплатный доступ

В статье предложено два алгоритма фильтрации некачественных текстов. Первый алгоритм основан на том, что частота появления n-грамм в качественном тексте подчиняется закону Зипфа, а в случайно генерированных текстах данный закон перестает действовать. Сравнение частотных характеристик двух типов текстов позволяет делать выводы относительно качества исходного текста. Второй алгоритм основан на сравнении скорости появления новых слов в текстах. В качественном тексте эта скорость, как правило, неравномерна, а в случайных текстах неравномерности нивелируются, что дает возможность обнаруживать некачественные тексты. Основные методы решения задачи фильтрации некачественных текстов - статистические. Они базируются на вычислении различных частотных характеристик текста. В отличие от модели «мешка слов», не учитывающей порядок следования слов в тексте, графовая модель текста (в ней вершинами являются слова или словоформы, а ребрами - пары слов), а также модели со структурами более высокого порядка, в которых используются частотные характеристики n-грамм при n > 2, позволяют учитывать взаимное расположение пар и троек слов в какой-либо общей части текста: в одном предложении или одной n-грамме.

Еще

Естественный текст, псевдотекст, фильтрация текстов, закон зипфа, n-граммы, скорость появления новых слов, "мешок слов", графовая модель текста

Короткий адрес: https://sciup.org/149129962

IDR: 149129962   |   DOI: 10.15688/jvolsu2.2019.2.13

Список литературы Естественный текст: математические методы атрибуции

  • Бузикашвили Н. Е., Самойлов Д. В., Крылова Г. А., 2000. N-граммы в лингвистике // Методы и средства работы с документами: сб. ст. М.: Едиториал УРРС. С. 91-130.
  • Выготский Л. С., 1999. Мышление и речь. Изд. 5-е, испр. М.: Лабиринт. 352 с.
  • Гальперин И. Р., 2006. Текст как объект лингвистического исследования. 4-е изд. стер. М.: КомКнига. 144 с.
  • Головин Б. Н., 1970. Язык и статистика. М.: Просвещение. 190 с.
  • Григорьева Е. Г., Клячин В. А., Помельников Ю. В., Попов В. В., 2017. Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса // Вестник Волгоградского государственного университета. Серия 2, Языкознание. Т. 16, № 2. С. 58-67. DOI: 10.15688/jvolsu2.2017.2.6
  • Иорданская Л. Н., Мельчук И. А., 2007. Смысл и сочетаемость в словаре. М.: Языки славянских культур. 672 с.
  • Леонтьев А. А., 1979. Понятие текста в современной лингвистике и психолингвистике // Психолингвистическая и лингвистическая природа текста и особенности его восприятия / под ред. Ю. А. Жлуктенко, А. А. Леонтьева. Киев: Вища школа. С. 7-17.
  • Мурзин Л. Н., Штерн А. С., 1991. Текст и его восприятие. Свердловск: Изд-во УГУ. 172 с.
  • Новиков А. И., 1983. Семантика текста и ее формализация. М.: Наука. 215 с.
  • Пиотровский Р. Г., 1975. Текст, машина, человек. Л.: Наука. 327 с.
  • Bakalov A., McCallum A., Wallach H., Mimno D., 2012. Topic models for taxonomies // Proceedings of the 12th ACM/IEEE-CS joint conference on digital libraries (Washington, DC, USA, June 10 -14, 2012). P. 237- 240.
  • DOI: 10.1145/2232817.2232861
  • Baker J. C., 1988. Pace: ATest of Authorship Based on the Rate at which New Words Enter an Author's Text // Literary and Linguistic Computing. Vol. 3, no. 1. P. 36-39.
  • Cavnar W., Trenkle J., 2001. N-Gram-Based Text Categorization. URL: https://www.researchgate.net/publication/2375544_N-Gram-Based_Text_Categorization.
  • McIntyre D., Walker B., 2019. Corpus Stylistics: Theory and Practice. Edinburgh University Press. 376 p.
  • Wallach H. M., 2006. Topic modeling: beyond bag-of-words // Proceedings of the 23rd international conference on Machine learning (Pittsburgh, Pennsylvania, USA, June 25-29, 2006). Р. 977-984.
  • DOI: 10.1145/1143844.1143967
  • Yao L., Mimno D., McCallum A., 2009. Efficient methods for topic model inference on streaming document collections // Proceedings of the 15th ACM SIGKDD international conference on knowledge discovery and data mining (Paris, France, June 28 - July 01, 2009). Р. 937-946.
  • DOI: 10.1145/1557019.1557121
  • Zeng Q. T., Redd D., Rindflesch T. C., Nebeker J. R., 2012. Synonym, topic model and predicate-based query expansion for retrieving clinical documents // AMIA. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540443.
  • ТВ3.ру, 2018 - «Нейро-Гоголь» вошел в шорт-лист Red Apple // ТВ3.ру. URL: https://tv3.ru/post/luchshaya-innovatsiya-v-reklame (дата обращения: 25.01.2019).
Еще
Статья научная