Y-метод классификации текстов

Автор: Яцко Вячеслав Александрович

Журнал: Грани познания @grani-vspu

Рубрика: Филологические науки

Статья в выпуске: 3 (74), 2021 года.

Бесплатный доступ

Рассматриваются основные особенности автоматической классификации текстовых документов. Описываются процедуры нового метода, основанного на вычислении отклонений распределения стоп-слов от коэффициента Ципфа: распознавание стоп-слов и составление ранжированных списков; вычисление отклонений частотностей терминов от коэффициента Ципфа; вычисление индексов текстов на основе среднего квадратичного отклонения; определение степени близости текстов. Разработаны показатели эффективности классификации: дискриминирующей силы, симилирующей силы и обобщённый показатель. Тестирование метода показало его эффективность при решении задачи жанровой классификации текстов.

Еще

Автоматическая классификация текстовых документов, методы и алгоритмы, распределение ципфа, показатели эффективности, дискриминирующая сила, жанровая классификация, степень близости текстов

Короткий адрес: https://sciup.org/148322074

IDR: 148322074

Список литературы Y-метод классификации текстов

  • Яцко В.А. Метод автоматической классификации текстов, основанный на законе Ципфа // Научно-техническая информация. Cер. 2. Информационные процессы и системы. 2015. № 5. С. 19-24.
  • Anthony L. AntConc 3.5.8. - 2019. [Электронный ресурс]. URL: https://www.laurenceanthony.net/software/antconc/ (дата обращения: 10.06.2021).
  • Corral A., Serra I. The brevity law as a scaling law, and a possible origin of Zipf's law for word frequencies // Entropy. 2020. Vol. 22. No. 2. [Электронный ресурс]. URL: https://www.mdpi.com/1099-4300/22/2/224/htm (дата обращения: 10.06.2021).
  • Free eBooks - Project Gutenberg. 2020. [Электронный ресурс]. URL: https://www.gutenberg.org/ (дата обращения: 10.06.2021).
  • Kowsari D. et al. Text classification algorithms: A survey // Information. 2019. Vol. 10. No. 4. [Электронный ресурс]. URL: https://www.mdpi.com/2078-2489/10/4/150/htm (дата обращения: 10.06.2021).
  • Nidhi, Gupta V. Recent trends in text classification techniques // International journal of computer applications. 2011. Vol. 35. No. 6. P. 45-51. [Электронный ресурс]. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.736.3034&rep=rep1& type=pdf (дата обращения: 10.06.2021).
  • Reuters-21578 benchmark corpus. - 2017. [Электронный ресурс]. URL: https://www.kaggle.com/nltkdata/reuters (дата обращения: 10.06.2021).
  • Yatsko V.A. TF*IDF ranker. - 2021. [Электронный ресурс]. URL: http://yatsko.zohosites.com/tf-idf-ranker1.html (дата обращения: 10.06.2021).
  • Zong W. et al. A discriminative and semantic feature selection method for text categorization // International journal of production economics. 2015. Vol. 165. P. 215-222. [Электронный ресурс]. URL: https://www.sciencedirect.com/science/article/ abs/pii/S0925527314004290 (дата обращения: 10.06.2021).
Еще
Статья научная