Метод извлечения знаний и навыков/компетенций из текстов требований вакансий

Бесплатный доступ

Анализ требований вакансий на рынке труда показывает, что они представляют собой многоуровневые языковые конструкции из нескольких слов со сложными семантическими связями. Целью исследования является разработка метода извлечения коротких текстов знаний и навыков/компетенций из текстов требований, имеющих сложную организационную структуру. Метод состоит в дополнении структуры сложных предложений новыми связями посредством дообученной на текстах онлайн-вакансий нейросетевой модели BERT и перехода от сложного текста к набору простых комбинаций слов. Показан процесс дообучения нейросетевых моделей BERT от лаборатории по искусственному интеллекту Сбербанка на текстах онлайн-вакансий. Реализованы два механизма добавления новых связей между словами требований с учётом знаний из предметной области: линейный и через дополнение дерева синтаксического разбора. Проведён сравнительный анализ для нескольких комбинаций инструментов. Наилучший результат показала комбинация: дообученная модель BERT плюс deeppavlov_syntax_parser плюс линейный способ дополнения связей. Применимость метода проверена на текстовом корпусе требований онлайн-вакансий. Предложенный метод показал более высокую эффективность, чем подход, основанный на правилах, который предполагает использование формальных правил и правил грамматики для анализа естественного языка. Использование метода позволяет оперативно определять ключевые изменения потребностей рынка труда на уровне текстов требований отдельных знаний и навыков/компетенций.

Еще

Нейросетевые модели, дообучение языковых моделей, синтаксический анализатор, синтаксические деревья, рынка труда, компетенции, вакансии

Короткий адрес: https://sciup.org/170199748

IDR: 170199748   |   DOI: 10.18287/2223-9537-2023-13-2-282-293

Список литературы Метод извлечения знаний и навыков/компетенций из текстов требований вакансий

  • ESCO — многоязычная классификация европейских навыков, компетенций и профессий. https://esco.ec.europa.eu/en.
  • Burtsev M., Anh Le. A Deep Neural Network Model for the Task of Named Entity Recognition. International Journal of Machine Learning and Computing. 2019.
  • Маслова М.А., Дмитриев А.С., Холкин Д.О. Методы распознавание именованных сущностей в русском языке: Инженерный вестник Дона, 2021. № 7(79).
  • Хакимова Е.М. Сложные предложения в современном русском языке: ортологический аспект. Вестник ЮУрГУ. Серия: Лингвистика. 2013.
  • Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Polosukhin I. Attention is all you need. In: Advances in neural information processing systems. 2017. 5998-6008.
  • Devlin J., Chang M. W., Lee K, Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  • Ezen-Can A. A Comparison of LSTM and BERT for Small Corpus. 2020. arXiv preprint arXiv:2009.05451.
  • Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Stoyanov V. Roberta: A robustly optimized bert pretraining approach. 2019. arXiv preprint arXiv:1907.11692.
  • Brown T., Mann B., Ryder N., Subbiah M., Kaplan J.D., Dhariwal P., Amodei D. Language models are few-shot learners. Advances in neural information processing systems, 2020, 33, 1877-1901.
  • Raffel C., Shazeer N., Roberts A., Lee K., Narang S., Matena M., Liu P.J. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 2020, 21(1), 5485-5551.
  • Lample G., Conneau A. Cross-lingual language model pretraining. 2019. arXiv preprint arXiv: 1901.07291.
  • Lee J., Yoon W., Kim S., Kim D., Kim S., So C.H., Kang J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 2020, 36(4), 1234-1240.
  • Chalkidis I., Fergadiotis M., Malakasiotis P., Aletras N., Androutsopoulos I. LEGAL-BERT: The muppets straight out of law school. 2020. arXiv preprint arXiv:2010.02559.
  • Beltagy I., Lo K., Cohan A. SciBERT: A pretrained language model for scientific text. 2019. arXiv preprint arXiv:1903.10676.
  • Ляшевская О.Н., Шаврина Т.О., Трофимов И.В., Власова Н.А. GramEval 2020 Дорожка по автоматическому морфологическому и синтаксическому анализу русских текстов. Международная конференция Dialogue. 2020, 553-569.
  • Синтаксический парсер DeepPavlov. http://docs.deeppavlov.ai/en/master/features/models/syntaxparser.html
  • Zeman D. Universal Dependencies 2.5, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (UFAL), Faculty of Mathematics and Physics, Charles University. 2019.
  • Томита-парсер. Технологии Яндекса. https://yandex.ru/dev/tomita/.
  • Natasha/yargy: Извлечение фактов на основе правил для русского языка. https://github.com/natasha/yargy.
  • Meister C., CotterellR. Language model evaluation beyond perplexity. 2021. arXiv preprint arXiv:2106.00085.
Еще
Статья научная