Семантический поиск учебных дисциплин под требования рынка труда на основе нейросетевых моделей языка

Автор: Ботов Дмитрий Сергеевич, Дмитрин Юрий Владиславович, Кленин Юлий Дмитриевич

Журнал: Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника @vestnik-susu-ctcr

Рубрика: Информатика и вычислительная техника

Статья в выпуске: 2 т.19, 2019 года.

Бесплатный доступ

В условиях роста объема открытого образовательного контента, повышения требований к профессиональному образованию со стороны рынка труда, развития концепции обучения в течение всей жизни (Lifelong Learning) сегодня крайне актуальной является задача регулярного обновления содержания образовательных программ и отдельных дисциплин. В статье рассматривается метод семантического поиска образовательного контента под заданные требования рынка труда, определяемые профессиональными стандартами. В отличие от традиционных подходов сопоставления и анализа содержания образовательных программ, основанных на онтологических моделях и правилах, предлагается использовать подход к распределенному представлению слов (word embeddings) с помощью известных нейросетевых моделей языка word2vec и fastText. В качестве исходных запросов выступают фрагменты профессиональных стандартов - конкретные требования к знаниям, умениям и описания трудовых действий и трудовых функций, а в качестве искомых документов - описания учебных дисциплин и онлайн-курсов, включающие аннотацию, результаты обучения, структуру и содержание основных тем. Приводятся данные экспертной оценки качества ранжирования по метрике NDCG (Normalized Discounted Cumulative Gain) и точности семантического поиска по метрике MAP (Mean Average Precision) на представительном корпусе программ учебных дисциплин вузов по ИТ-направлениям и массовых открытых онлайн-курсов. Лучшие результаты для поиска показывают модели word2vec и fastText, обучаемые без учителя на больших специально подготовленных корпусах текстов программ учебных дисциплин и описаний онлайн-курсов. Для перехода от векторов слов к векторам текстов исследуются разные способы усреднения векторов слов, полученных от нейросетевых моделей, в сочетании с векторной моделью TF-IDF.

Еще

Семантический поиск, семантическая близость, дистрибутивная семантика, учебная дисциплина, массовые открытые онлайн-курсы, рынок труда

Короткий адрес: https://sciup.org/147232253

IDR: 147232253   |   DOI: 10.14529/ctcr190201

Список литературы Семантический поиск учебных дисциплин под требования рынка труда на основе нейросетевых моделей языка

  • Федеральный закон от 29 декабря 2012 г. N 273-ФЗ «Об образовании в Российской Федерации. - http://ivo.garant.ru/#/document/70291362/ (дата обращения: 26 декабря 2018).
  • Федеральный закон от 3 июля 2016 г. N 238-ФЗ «О независимой оценке квалификации». - http://ivo.garant.ru/#/document/71433946/ (дата обращения: 26 декабря 2018).
  • Сметанина, О.Н. Методологические основы управления образовательным маршрутом с использованием интеллектуальной информационной поддержки / О.Н. Сметанина. - УГАТУ, 2012. 446 с.
  • Лисицына, Л.С. Автоматизация управления образовательными траекториями для разработки модульных компетентностно-ориентированных образовательных программ вуза / Л.С. Лисицына, А.С. Пирская // Сборник трудов Всероссийской научно-практической конференции с международным участием «Информационные технологии в обеспечении нового качества высшего образования». - М., 2010. - С. 75-86.
  • Черникова, Е.А. Формализация и сравнение учебных программ на основе онтологического подхода / Е.А. Черникова, А.С. Черников // Вестник МГТУ им. Н.Э. Баумана. Сер. «Приборостроение». Спецвыпуск «Информационные технологии и компьютерные системы». - 2011. - С. 101-104.
  • Мониторинг соответствия профессионального образования потребностям рынка труда / С.Д. Валентей, П.В. Зрелов, В.В. Кореньков и др. // Общественные науки и современность. - 2018. - № 3. - С. 5-16.
  • Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean. - arXiv preprint arXiv:1301.3781, 2013.
  • Architecture of a concept-based information retrieval system for educational resources / R. Pérez-Rodríguez, L. Anido-Rifón, M. Gómez-Carballa, M. Mouriño-García // Science of Computer Programming. - 2016, no. 129. - P. 72-91.
  • DOI: 10.1016/j.scico.2016.05.005
  • Klenin, J. Comparison of Vector Space Representations of Documents for the Task of Information Retrieval of Massive Open Online Courses / J. Klenin, D. Botov, Y. Dmitrin // Proceedings Conference on Artificial Intelligence and Natural Language. - Cham: Springer, 2017. - P. 156-164.
  • DOI: 10.1007/978-3-319-71746-3_14
  • Improving document ranking with dual word embeddings / E. Nalisnick, B. Mitra, N. Craswell, R. Caruana // Proceedings of the 25th International Conference Companion on World Wide Web. - International World Wide Web Conferences Steering Committee, 2016. - P. 83-84.
  • DOI: 10.1145/2872518.2889361
  • Lilleberg, J. Support vector machines and word2vec for text classification with semantic features / J. Lilleberg, Y. Zhu, Y. Zhang // Proceedings of International Conference on Cognitive Informatics & Cognitive Computing (ICCI* CC), 2015 IEEE 14th. - 2015. - P. 136-140.
  • DOI: 10.1109/ICCI-CC.2015.7259377
  • Le, Q. Distributed representations of sentences and documents / Q. Le, T. Mikolov // Proceedings of International Conference on Machine Learning. - 2014. - P. 1188-1196.
  • Enriching word vectors with subword information / P. Bojanowski, E. Grave, A. Joulin, T. Mikolov. - arXiv preprint arXiv:1607.04606, 2016.
  • DOI: 10.1162/tacl_a_00051
Еще
Статья научная