Отбор признаков для классификации текстов на основе ограничений для весов термов

Автор: Сергиенко Р.Б., Шан Ур реман М., Хан А.Э., Гасанова Т.О., Минкер В.

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 1 т.16, 2015 года.

Бесплатный доступ

Классификация текста - актуальная задача анализа данных, которая может найти применение в различных областях, включая аэрокосмическую индустрию. Рассматриваются различные задачи классификации текста, такие как извлечение мнения и категоризация темы. Применяются различные походы предобработки текстовой информации (TF-IDF, ConfWeight, Novel TW) и различные алгоритмы машинного обучения для классификации (классифкатор Байеса, метод ближайших соседей, метод опорных векторов, искусственные нейронные сети). Главная задача представленных в статье исследований - уменьшение размерности задачи классификации текста за счёт отбора признаков на основе ограничений для весов термов. Такое снижение размерности обеспечивает значимое снижение размерности и сокращает время для вычислений. Кроме того, использование ограничений на веса термов может повысить точность классификации на некоторых задачах. Такое увеличение наблюдалось на трёх задачах из пяти, на одной задаче не наблюдалось значимых изменений и ещё на одной зафиксировано незначительное снижение точности классификации.

Еще

Категоризация темы, классификация текста, отбор признаков, взвешивание термов, извлечение мнения, ограничение

Короткий адрес: https://sciup.org/148177382

IDR: 148177382

Статья научная