Разработка системы тематической классификации новостных текстов с использованием алгоритмов машинного обучения

Автор: Челышев Эдуард Артурович, Оцоков Шамиль Алиевич, Раскатова Марина Викторовна, Щголев Павел

Журнал: Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление @vestnik-rosnou-complex-systems-models-analysis-management

Рубрика: Информатика и вычислительная техника

Статья в выпуске: 3, 2022 года.

Бесплатный доступ

Представлена разработка системы тематической классификации новостных текстов с использованием алгоритмов машинного обучения с использованием выборки новостных статей, каждая из которых относится к одной из девяти рубрик. Описан способ подготовки текстовых данных для их последующей классификации. Для векторизации документов применяется модель векторизации FastText. Для построения классификаторов использованы четыре различных алгоритма классификации. Проведена оценка качества построенных классификаторов по ряду метрик. Также представлено разработанное в рамках системы тематической классификации веб-приложение и его интерфейс.

Еще

Обработка естественного языка, машинное обучение, классификация, рубрика, нормализация, метрика, веб-приложение

Короткий адрес: https://sciup.org/148325179

IDR: 148325179   |   DOI: 10.18137/RNU.V9187.22.03.P.185

Список литературы Разработка системы тематической классификации новостных текстов с использованием алгоритмов машинного обучения

  • Вершинин Е.В., Тимченко Д.К. Исследование применения стемминга и лемматизации при разработке систем адаптивного перевода текста // Наука. Исследования. Практика: сб. изб. ст. по материалам междунар. науч. конф. СПб., 2020. С. 77–79.
  • Гусев П.Ю. Разработка системы классификации текстов по научным специальностям с применением методов машинного обучения // Вестник НГУ. Серия: Информационные технологии. 2021. Т. 19, № 1. С. 39–47. DOI: 10.25205/1818-7900-2021-19-1-39-47.
  • Жеребцова Ю.А., Чижик А.В. Сравнение моделей векторного представления текстов в задаче создания чатбота // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 3. С. 16–34. DOI: 10.25205/1818-7935-2020-18-3-16-34.
  • Жилин В.А. Сравнение веб-фреймворков Django и Rubyonrails // Россия молодая: cборник материалов VII Всероссийской научно-практической конференции молодых ученых с международным участием, Кемерово, 21–24 апреля 2015 года. Кемерово: Кузбасский государственный технический университет им. Т.Ф. Горбачева, 2015. С. 157.
  • Мартынов В.А., Плотникова Н.П. Нормализация и фильтрация текста для задачи кластеризации // XLVIII Огарёвские чтения: материалы научной конференции, Саранск, 06–13 декабря 2019 года. В 3 частях / Саранск: Национальный исследовательский мордовский государственный университет им. Н.П. Огарёва, 2020. С. 448–452.
  • Ткаченко А.Л. Решение задачи классификации документов вуза на основе методов интеллектуального анализа // Вестник кибернетики. 2021. № 1 (41). С. 12–19. DOI: 10.34822/1999-7604-2021-1-12-19.
  • Челышев Э.А., Оцоков Ш.А., Раскатова М.В. Автоматическая рубрикация текстов с использованием алгоритмов машинного обучения // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ, управление. 2021. № 4. С. 175–182. DOI: 10.25586/RNU .V9187.21.04.P.175. ISSN: 2414-9187.
  • Челышев Э.А., Оцоков Ш.А., Раскатова М.В., Щёголев П. Сравнение методов классификации русскоязычных новостных текстов с использованием алгоритмов машинного обучения // Вестник кибернетики. 2022. № 1 (45). С. 63–71. DOI: 10.34822/1999-7604-2022-1-63-71. EDNVHTY BB.
  • Якиль К.А., Рязанова Н.Ю. Фильтрация SMS-спама // Автоматизация. Современные технологии. 2016. № 9. С. 19–24.
  • Яцко В.А. Алгоритмы и программы автоматической обработки текста // Вестник Иркутского государственного лингвистического университета. 2012. № 1 (17). С. 150–161.
  • Aggarwal C.С., Zhai C. (2012) A Survey of Text Classification Algorithms. Mining Text Data.
  • Chelyshev E.A., Raskatova M.V. (2022) Information System for Automatic News Text Classification: Proc. 6th International Conference on Information Technologies in Engineering Education, Inforino 2022. Moscow, 12–15 April 2022. DOI: 10.1109/Inforino53888.2022.9782937. EDN UUZQPI.
  • Hartmann J., Huppertz J., Schamp C., Heitmann M. (2019) Comparing automated text classification methods. International Journal of Research in Marketing, vol. 36, pp. 20–38.
  • Korobov M. (2015) Morphological Analyzer and Generator for Russian and Ukrainian Languages. Analysis of Images, Social Networks and Texts, pp. 320–332.
  • Manning C.D., Raghavan P., Schütze H. (2008) Introduction to Information Retrieval. Cambridge University Press.
  • Vujovic Z. (2021) Classification Model Evaluation Metrics. International Journal of Advanced Computer Science and Applications, vol. 12, pp. 599–606.
  • Vychegzhanin S., Kotelnikov E., Milov V. (2021) Comparative analysis of machine learning methods for news categorization in Russian. CEUR Workshop Proceedings, vol. 2922, pp. 100–108.
Еще
Статья научная