Автоматическая рубрикация текстов с использованием алгоритмов машинного обучения

Автор: Челышев Эдуард Артурович, Оцоков Шамиль Алиевич, Раскатова Марина Викторовна

Журнал: Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление @vestnik-rosnou-complex-systems-models-analysis-management

Рубрика: Информатика и вычислительная техника

Статья в выпуске: 4, 2021 года.

Бесплатный доступ

Рассмотрено решение задачи автоматической рубрикации русскоязычных текстов с использованием алгоритмов машинного обучения на примере корпуса новостных статей как задачи классификации на некоторое число непересекающихся классов. Показан алгоритм подготовки текстовых данных для классификации и его практическая реализация на языке программирования Python. Проведен анализ существующих методов нормализации токенов. Представлены результаты проведенного исследования по построению ряда классификаторов для решения задачи классификации русскоязычных текстов. Обобщающая способность классификаторов оценена по ряду метрик.

Классификация, токенизация, нормализация, стоп-слово, метрика

Короткий адрес: https://sciup.org/148323530

IDR: 148323530   |   DOI: 10.18137/RNU.V9187.21.04.P.175

Список литературы Автоматическая рубрикация текстов с использованием алгоритмов машинного обучения

  • Вершинин Е.В., Тимченко Д.К. Исследование применения стемминга и лемматизации при разработке систем адаптивного перевода текста // Наука. Исследования. Практика: сборник избранных статей по материалам Международной научной конференции (Санкт-Петербург, 25 декабря 2019 г.). Санкт-Петербург: Гуманитарный национальный исследовательский институт «Нацразвитие», 2020. 310 с. ISB N 978-5-6043877-4-0.
  • Жеребцова, Ю.А., Чижик А.В. Сравнение моделей векторного представления текстов в задаче создания чат-бота. // Вестник НГУ. 2020. Т. 18.
  • Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник. Иркутск: ИГЛУ. 2011.
  • Мартынов В. А., Плотникова Н.П. Нормализация и фильтрация текста для задачи кластеризации // XLVIII Огарёвские чтения: материалы научной конференции. В 3 ч. (Саранск, 06–13 декабря 2019 г.). Саранск: Национальный исследовательский Мордовский государственный университет имени Н.П. Огарёва, 2020. С. 448–452.
  • Морфологический анализатор pymorphy 2 [Электронный ресурс]. URL: https://pymorphy2.readthedocs.io/en/stable/ (дата обращения: 03.05.2021).
  • Челышев Э.А., Оцоков Ш.А., Раскатова М.В. Разработка информационной системы для автоматической рубрикации новостных текстов // Международный журнал информационных технологий и энергоэффективности. 2021. Т. 6, № 3 (21). С. 11–17.
  • Шаграев А.Г. Модификация, разработка и реализация методов классификации новостных текстов: дис. … канд. техн. наук. М.: МЭИ, 2014. 108 с.
  • Якиль К.А., Рязанова Н.Ю. Фильтрация SMS-спама // Автоматизация. Современные технологии. 2016. № 9. С. 19–24.
  • Яцко В.А. Алгоритмы и программы автоматической обработки текста // Вестник Иркутского государственного лингвистического университета. 2012. № 1 (17). С. 150–161.
  • Korobov M. (2015) Morphological Analyzer and Generator for Russian and Ukrainian Languages. Analysis of Images, Social Networks and Texts, pp. 320–332.
  • Kaggle: Your Home for Data Science. Available at: https://www.kaggle.com/yutkin/corpus-of-russian-news-articles-from-lenta (date of the application: 08.02.2021).
  • NLTK 3.6.2 documentation. Available at: https://www.nltk.org/ (date of the application: 14.04.2021).
  • Reinsel D., Gantz J., Rydning J. (2018) The Digitalization of the World, 28 p. Available at: https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataagewhitepaper.pdf (date of the application: 11.03.2021).
  • Rus Vectores: semantic models for the Russian language. Available at: https://rusvectores.org/ru/ (date of the application: 14.02.2021).
Еще
Статья научная