Информационные технологии. Рубрика в журнале - Грани познания
Z-коэффициент как параметр автоматической классификации текстов
Статья научная
Рассмотрены особенности классификации текстовых документов и функционирования программы-классификатора. Описан алгоритм вычисления Z-коэффициента как параметра классификации. Проведено тестирование его эффективности для решения задачи авторской атрибуции на полных текстах, выравненных текстах, а также на выравненных текстах в сочетании с отклонением от распределения Ципфа. Тестирование показало, что применение Z-коэффициента как самостоятельного параметра даёт отрицательный результат. Вместе с тем, высокую эффективность продемонстрировало применение этого коэффициента на основе отклонения от распределения Ципфа, что позволило разработать вариант предложенного ранее Y-метода автоматической классификации текстов.
Бесплатно
Эффективность применения косинусной метрики для определения смысловой близости документов
Статья научная
Оценивается эффективность применения косинусной метрики определения смысловой близости документов для решения задачи авторской атрибуции текстовых документов. Исходными статистическими данными послужило распределение стоп-слов в трёх произведениях художественной литературы, два из которых были написаны одним автором. Показано, что более адекватный результат получается при применении метрики к отклонениям частотностей стоп-слов от распределения Ципфа при условии предварительного выравнивания входных текстов.
Бесплатно