Эффективность применения косинусной метрики для определения смысловой близости документов

Автор: Яцко Вячеслав Александрович

Журнал: Грани познания @grani-vspu

Рубрика: Информационные технологии

Статья в выпуске: 4 (69), 2020 года.

Бесплатный доступ

Оценивается эффективность применения косинусной метрики определения смысловой близости документов для решения задачи авторской атрибуции текстовых документов. Исходными статистическими данными послужило распределение стоп-слов в трёх произведениях художественной литературы, два из которых были написаны одним автором. Показано, что более адекватный результат получается при применении метрики к отклонениям частотностей стоп-слов от распределения Ципфа при условии предварительного выравнивания входных текстов.

Смысловая близость текстов, косинусная мера, распределение ципфа, стоп-слова, классификация документов

Короткий адрес: https://sciup.org/148310508

IDR: 148310508

Список литературы Эффективность применения косинусной метрики для определения смысловой близости документов

  • Яцко В.А. Метод автоматической классификации текстов, основанный на законе Ципфа // Научно-техническая информация. Cер. 2.: Информационные процессы и явления. 2015. № 5. С. 19-24.
  • Free eBooks - Project Gutenberg. [Электронный ресурс]. URL: https://www.gutenberg.org/ (дата обращения: 05.07.2020).
  • Madylova A., Oguducu S.G. A taxonomy based semantic similarity of documents using the cosine measure // 24th International. Symposium on Computer and Information Sciences. Guzelyurt, 2009. P. 129-134. DOI: 10.1109/ISCIS.2009.5291865
  • Polydouri A., Vathi E., Siolas G. et al. An efficient classification approach in imbalanced datasets for intrinsic plagiarism detection // Evolving systems. 2018. [Электронный ресурс]. URL: https://www.researchgate.net/profile/Andrianna_Polydouri/publication/326383978_An_efficient_classification_approach_in_imbalanced_datasets_for_intrinsic_plagiarism_detection.pdf (дата обращения: 05.07.2020). DOI: 10.1007/s12530-018-9232-1
  • Sarica S., Luo J. Stopwords in technical language processing. [Электронный ресурс]. URL: https://arxiv.org/ abs/2006.02633 (дата обращения: 05.07.2020).
  • Singhal A., Salton G., Mitra M., Buckley C. Document length normalization // Information processing & management. 1996. Vol. 32. Issue 5. P. 619-633.
Еще
Статья научная