Z-коэффициент как параметр автоматической классификации текстов

Автор: В.А. Яцко

Журнал: Грани познания @grani-vspu

Рубрика: Информационные технологии

Статья в выпуске: 6 (77), 2021 года.

Бесплатный доступ

Рассмотрены особенности классификации текстовых документов и функционирования программы-классификатора. Описан алгоритм вычисления Z-коэффициента как параметра классификации. Проведено тестирование его эффективности для решения задачи авторской атрибуции на полных текстах, выравненных текстах, а также на выравненных текстах в сочетании с отклонением от распределения Ципфа. Тестирование показало, что применение Z-коэффициента как самостоятельного параметра даёт отрицательный результат. Вместе с тем, высокую эффективность продемонстрировало применение этого коэффициента на основе отклонения от распределения Ципфа, что позволило разработать вариант предложенного ранее Y-метода автоматической классификации текстов.

Еще

Автоматическая классификация текстовых документов, авторская атрибуция, методы и алгоритмы, программа-классификатор, Z-коэффициент, распределение Ципфа, Y-метод, тестирование эффективности

Короткий адрес: https://sciup.org/148322543

IDR: 148322543

Список литературы Z-коэффициент как параметр автоматической классификации текстов

  • Яцко В.А. Y-метод классификации текстов // Электрон. науч.-образоват. журнал ВГСПУ «Грани познания». 2021. № 3(74). С. 52–56. [Электронный ресурс]. URL: http://grani.vspu.ru/jurnal/79 (дата обращения 13.10.2021).
  • Free eBooks – Project Gutenberg. 2020. [Электронный ресурс]. URL: https://www.gutenberg.org/ (дата обращения: 10.06.2021).
  • Kathiresan V., Sumathi P. An efficient clustering algorithm based on z-score ranking method // 2012 International conference on computer communication and informatics. Coimbatore, India, 2012. P. 1–4. [Электронный ресурс]. URL: https://ieeexplore.ieee.org/abstract/document/6158779 (дата обращения: 13.10.2021).
  • Mahinovs A., Tiwari A. Text classification method review. Cranfield: Cranfield university, 2007. [Электронный ресурс]. URL: https://dspace.lib.cranfield.ac.uk/bitstream/handle/1826/1860/mahinovs.pdf?sequence=1&isAllowed=y (дата обращения: 13.10.2021).
  • Pandey A., Jain A. Comparative analysis of KNN algorithm using various normalization techniques // I.J. computer network and information security. 2017. No 11. P. 36–42. [Электронный ресурс]. URL: http://j.mecs-press.net/ijcnis/ijcnis-v9-n11/IJCNIS-V9-N11-4.pdf (дата обращения: 13.10.2021).
  • Westergaard D., Jensen L.: Z scores for text mining. 2018. [Электронный ресурс]. URL: https://figshare.com/articles/dataset/Z_scores_for_text_mining/5340514 (дата обращения: 13.10.2021).
  • Yatsko V. TF*IDF ranker. 2021. [Электронный ресурс]. URL: http://yatsko.zohosites.com/tf-idf-ranker1.html (дата обращения: 13.10.2021).
  • Yatsko V. Y-sets application. 2021. [Электронный ресурс]. URL: http://yatsko.zohosites.com/y-sets.html (дата обращения: 13.10.2021).
Еще
Статья научная