Активное обучение для извлечения знаний из описаний образовательных курсов в условиях малых объёмов данных

Автор: Кленин Ю.Д.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: Инжиниринг онтологий

Статья в выпуске: 4 (34) т.9, 2019 года.

Бесплатный доступ

В условиях постоянного роста объёмов учебных данных их «ручная» обработка не представляется возможной, уступая место различным моделям и методам машинного обучения. В то же время именно наличие обучающих выборок достаточного объёма позволяет современным алгоритмам машинного обучения хорошо справляться с базовыми прикладными задачами. Однако многие современные задачи сложны и узкоспециализированы. Это ограничивает количество данных, доступных для качественного обучения, снижая эффективность полностью автоматических систем. В работе рассматривается подход к задаче автоматизированного извлечения фактов из коллекций неразмеченных текстовых документов, в условиях малых объёмов учебных данных. Освещаются вопросы интеграции экспертных правил для конкретных предметных областей с обобщёнными, предметно-независимыми моделями машинного обучения, предварительно обученными на больших объёмах данных. Предложенный подход, опираясь на методику активного обучения, позволяет сократить трудозатраты эксперта, необходимые для эффективной генерации шаблонов извлекаемых фактов, сохраняя при этом высокое качество результатов работы системы. Применение предлагаемого метода поиска фактов по шаблону показано на примере задачи поиска информации о целевой аудитории в неструктурированном описании онлайн курсов.

Еще

Граф знаний, онтология, извлечение знаний, активное обучение, экспертные правила, машинное обучение, малые данные

Короткий адрес: https://sciup.org/170178839

IDR: 170178839   |   УДК: 004.85   |   DOI: 10.18287/2223-9537-2019-9-4-522-535

Active learning approach to knowledge extraction from descriptions of educational courses under conditions of small data

With the constant growth of volumes of available data, their manual processing stops being possible, giving way to various machine learning models. Modern algorithms do a good job of basic tasks, provided that there is a sufficient amount of training data. However, many modern tasks are much more complicated and are highly specialized, which limits the amount of training data available for training, hindering the performance of fully automatic systems. In this paper, an approach to the task of automated fact extraction from the collections of raw text documents adapted for the lack of training data is presented. The integration of rule-based approaches for specific knowledge domains with generalized, domain-independent machine learning models pre-trained on large volumes of data is discussed. The proposed approach based on the active learning methodology, seeks to reduce the expert's labor costs required for the efficient generation of extractable fact templates without compromising the system's performance. The paper also demonstrates the application of the proposed method of fact extraction based on the task of the target audience information search from the unstructured raw descriptions of online courses.

Еще

Список литературы Активное обучение для извлечения знаний из описаний образовательных курсов в условиях малых объёмов данных

  • He, W. Gaining competitive intelligence from social media data: Evidence from two largest retail chains in the world / W. He, J. Shen, X. Tian, Y. Li, V. Akula, G. Yan, R. Tao // Industrial Management & Data Systems. - 2015. - Vol. 115, No. 9. - P.1622-1636.
  • Ahmad, U. Counter Terrorism on Online Social Networks Using Web Mining Techniques / U. Ahmad // Intelligent Technologies and Applications: First International Conference, INTAP 2018, Bahawalpur, Pakistan, October 23-25, 2018, Revised Selected Papers. - Springer, 2019. - Vol. 932. - P.240.
  • Toulouse, T. Automatic fire pixel detection using image processing: a comparative analysis of rule-based and machine learning-based methods / T. Toulouse, L. Rossi, T. Celik, M. Akhloufi // Signal, Image and Video Processing. - 2016. - Vol. 10, No. 4. - P.647-654.
  • Ginneken, B. Fifty years of computer analysis in chest imaging: rule-based, machine learning, deep learning / B. Ginneken // Radiological Physics and Technology. - 2017. - Vol. 1, No. 10. - P.23-32.
  • Lukashevich, N.V. SentiRuEval-2016: overcoming time gap and data sparsity in tweet sentiment analysis / N.V. Lukashevich, Y.V. Rubtsova // Proceedings of International Conference Dialog-2016 - 2016. - P.416-426.
Еще