Семантический поиск учебных дисциплин под требования рынка труда на основе нейросетевых моделей языка
Автор: Ботов Дмитрий Сергеевич, Дмитрин Юрий Владиславович, Кленин Юлий Дмитриевич
Рубрика: Информатика и вычислительная техника
Статья в выпуске: 2 т.19, 2019 года.
Бесплатный доступ
В условиях роста объема открытого образовательного контента, повышения требований к профессиональному образованию со стороны рынка труда, развития концепции обучения в течение всей жизни (Lifelong Learning) сегодня крайне актуальной является задача регулярного обновления содержания образовательных программ и отдельных дисциплин. В статье рассматривается метод семантического поиска образовательного контента под заданные требования рынка труда, определяемые профессиональными стандартами. В отличие от традиционных подходов сопоставления и анализа содержания образовательных программ, основанных на онтологических моделях и правилах, предлагается использовать подход к распределенному представлению слов (word embeddings) с помощью известных нейросетевых моделей языка word2vec и fastText. В качестве исходных запросов выступают фрагменты профессиональных стандартов - конкретные требования к знаниям, умениям и описания трудовых действий и трудовых функций, а в качестве искомых документов - описания учебных дисциплин и онлайн-курсов, включающие аннотацию, результаты обучения, структуру и содержание основных тем. Приводятся данные экспертной оценки качества ранжирования по метрике NDCG (Normalized Discounted Cumulative Gain) и точности семантического поиска по метрике MAP (Mean Average Precision) на представительном корпусе программ учебных дисциплин вузов по ИТ-направлениям и массовых открытых онлайн-курсов. Лучшие результаты для поиска показывают модели word2vec и fastText, обучаемые без учителя на больших специально подготовленных корпусах текстов программ учебных дисциплин и описаний онлайн-курсов. Для перехода от векторов слов к векторам текстов исследуются разные способы усреднения векторов слов, полученных от нейросетевых моделей, в сочетании с векторной моделью TF-IDF.
Семантический поиск, семантическая близость, дистрибутивная семантика, учебная дисциплина, массовые открытые онлайн-курсы, рынок труда
Короткий адрес: https://sciup.org/147232253
IDR: 147232253 | УДК: 004.855 | DOI: 10.14529/ctcr190201
Neural network-based semantic search of educational programmes fitting labor market requirements
With the growth of open educational content, growing demand for professional education from the labor market, and the development of the concept of lifelong learning, the task of updating the content of educational programs today is extremely important. The article discusses the semantic search method to retrieval and ranking of educational content for the specified requirements of the labor market, determined by professional standards. In contrast to traditional approaches of matching and analyzing the content of educational programs based on ontological models and rules, we propose the usage of word embedding and well-known neural network language models word2vec and fastText. The initial requests are specific requirements for knowledge, skills and descriptions of labor activities and labor functions extracted from professional standards. The search results are the descriptions of academic disciplines and online courses, including goals and objectives, learning outcomes, the structure and content of the main topics. We include the results of the expert evaluation of the ranking quality for the semantic search by metrics NDCG (Normalized Discounted Cumulative Gain) and MAP (Mean Average Precision) on the representative corpus of IT disciplines programmes of universities and massive open online courses (MOOC). The best results for the search are shown by the word2vec and fastText models, which are trained without supervision on large specially prepared corpuses of curriculum programs and descriptions of online courses. To move from word vectors to document vectors various combinations of neural network models with the TF-IDF weighting scheme are investigated.
Список литературы Семантический поиск учебных дисциплин под требования рынка труда на основе нейросетевых моделей языка
- Федеральный закон от 29 декабря 2012 г. N 273-ФЗ «Об образовании в Российской Федерации. - http://ivo.garant.ru/#/document/70291362/ (дата обращения: 26 декабря 2018).
- Федеральный закон от 3 июля 2016 г. N 238-ФЗ «О независимой оценке квалификации». - http://ivo.garant.ru/#/document/71433946/ (дата обращения: 26 декабря 2018).
- Сметанина, О.Н. Методологические основы управления образовательным маршрутом с использованием интеллектуальной информационной поддержки / О.Н. Сметанина. - УГАТУ, 2012. 446 с.
- Лисицына, Л.С. Автоматизация управления образовательными траекториями для разработки модульных компетентностно-ориентированных образовательных программ вуза / Л.С. Лисицына, А.С. Пирская // Сборник трудов Всероссийской научно-практической конференции с международным участием «Информационные технологии в обеспечении нового качества высшего образования». - М., 2010. - С. 75-86.
- Черникова, Е.А. Формализация и сравнение учебных программ на основе онтологического подхода / Е.А. Черникова, А.С. Черников // Вестник МГТУ им. Н.Э. Баумана. Сер. «Приборостроение». Спецвыпуск «Информационные технологии и компьютерные системы». - 2011. - С. 101-104.
- Мониторинг соответствия профессионального образования потребностям рынка труда / С.Д. Валентей, П.В. Зрелов, В.В. Кореньков и др. // Общественные науки и современность. - 2018. - № 3. - С. 5-16.
- Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean. - arXiv preprint arXiv:1301.3781, 2013.
- Architecture of a concept-based information retrieval system for educational resources / R. Pérez-Rodríguez, L. Anido-Rifón, M. Gómez-Carballa, M. Mouriño-García // Science of Computer Programming. - 2016, no. 129. - P. 72-91.
- DOI: 10.1016/j.scico.2016.05.005
- Klenin, J. Comparison of Vector Space Representations of Documents for the Task of Information Retrieval of Massive Open Online Courses / J. Klenin, D. Botov, Y. Dmitrin // Proceedings Conference on Artificial Intelligence and Natural Language. - Cham: Springer, 2017. - P. 156-164.
- DOI: 10.1007/978-3-319-71746-3_14
- Improving document ranking with dual word embeddings / E. Nalisnick, B. Mitra, N. Craswell, R. Caruana // Proceedings of the 25th International Conference Companion on World Wide Web. - International World Wide Web Conferences Steering Committee, 2016. - P. 83-84.
- DOI: 10.1145/2872518.2889361
- Lilleberg, J. Support vector machines and word2vec for text classification with semantic features / J. Lilleberg, Y. Zhu, Y. Zhang // Proceedings of International Conference on Cognitive Informatics & Cognitive Computing (ICCI* CC), 2015 IEEE 14th. - 2015. - P. 136-140.
- DOI: 10.1109/ICCI-CC.2015.7259377
- Le, Q. Distributed representations of sentences and documents / Q. Le, T. Mikolov // Proceedings of International Conference on Machine Learning. - 2014. - P. 1188-1196.
- Enriching word vectors with subword information / P. Bojanowski, E. Grave, A. Joulin, T. Mikolov. - arXiv preprint arXiv:1607.04606, 2016.
- DOI: 10.1162/tacl_a_00051