Извлечение информации из текстов на основе онтологии и больших языковых моделей

Автор: Сидорова Е.А., Иванов А.И., Овчинникова К.А.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: Инжиниринг онтологий

Статья в выпуске: 1 (55) т.15, 2025 года.

Бесплатный доступ

Рассматривается извлечение информации из текстов на основе онтологии предметной области и нейросетевых методов анализа текста с привлечением больших языковых моделей. Обсуждается роль эксперта при разработке и сопровождении систем на примере задачи извлечения информации из аналитических статей и при построении онтологий по компьютерной лингвистике, описывающих основные понятия, интересующие пользователя/заказчика системы. Создание онтологии сопровождается созданием словаря - терминологического ядра онтологии с дальнейшей разработкой методов извлечения новых терминов данной предметной области. Данная задача рассматривается как задача извлечения именованных сущностей, для решения которой стандартом является обучение нейросетевой модели на представительном наборе данных. Этот подход сравнивается с подходом на основе больших языковых моделей, для реализации которого разработаны лексико-синтаксические шаблоны, шаблоны инструкций для проверки гипотез относительно новых терминов-словосочетаний, инструкции для верификации результатов. Разработанные инструкции для решения задачи извлечения отношений включают вопросы оценки компетенций на естественном языке, генерируемые автоматически для каждого отношения онтологии. Новизна предлагаемого подхода заключается в интеграции онтологических, лингвистических и нейросетевых подходов для извлечения информации из текстов. Показана возможность решать задачи анализа текста и извлечения информации путём выстраивания цепочки больших языковых моделей, инструкции для которых динамически формируются на основе результатов предыдущих этапов анализа. В эксперименте достигнуты следующие оценки F1-меры: для извлечения и классификации терминов F1=0.8, для извлечения отношений F1=0.87.

Еще

Извлечение информации, онтология предметной области, большие языковые модели, нейросетевые модели, разработка инструкций

Короткий адрес: https://sciup.org/170208812

IDR: 170208812   |   DOI: 10.18287/2223-9537-2025-15-1-114-129

Список литературы Извлечение информации из текстов на основе онтологии и больших языковых моделей

  • Массель Л.В. Экосистема знаний как развитие и специализация цифровой экосистемы // Труды Международного научно-технического конгресса «Интеллектуальные системы и информационные технологии–2023». Таганрог: Издатель Ступин С.А., 2023. C.155-164.
  • Лукашевич Н.В., Добров Б.В. Проектирование лингвистических онтологий для информационных систем в широких предметных областях. Онтология проектирования. Том 5. №1 (15). 2015. С.47-69.
  • Ehrlinger L., Wöß W. Towards a Definition of Knowledge Graphs // Joint Proceedings of the Posters and Demos Track of 12th International Conference on Semantic Systems (SEMANTiCS2016) and 1st International Workshop on Semantic Change & Evolving Semantics (SuCCESS16). Leipzig, 2016. P.13–16.
  • Fernández-López M., Gómez-Pérez A., Pazos A., Pazos J. Building a Chemical Ontology Using Methontology and the Ontology Design Environment. IEEE Intelligent Systems & their applications, 1999, 4(1). P.37–46.
  • Sure Y., Staab S., Studer R. On-To-Knowledge Methodology. Handbook on Ontologies. 2003. № 6. P.135–152.
  • Uschold M., King M. Towards a Methodology for Building Ontologies. Proc. of the Workshop on Basic Ontological Issues in Knowledge Sharing. Montreal, Canada. 1995. P.6.1–6.10.
  • Braga J., Dias Joaquim L.R., Regateiro F. A Machine Learning Ontology, 2023. DOI: 10.31226/osf.io/rc954.
  • Овчинникова К., Иванов А., Сидорова Е. Автоматизация построения терминологического ядра онтологии по компьютерной лингвистике на основе корпуса текстов. Системная информатика. 2023. № 23. С.13-32.
  • Kim Sang E., Meulder F. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition // Proc. of the 7th Conference on Natural Language Learning at HLT-NAACL 2003. P.142–147.
  • Гусев В.Д., Саломатина Н.В. Метод итерационного построения шаблонов для поиска в текстах по катализу информации о химических процессах и условиях их протекания. Информационные и математические технологии в науке и управлении. 2016. № 4-1. С.37–45.
  • Zhu F., Shen B. Combined SVM-CRFs for biological named entity recognition with maximal bidirectional squeezing // PLoS ONE 7(6): e39230. 2012. DOI: 10.1371/journal.pone.0039230.
  • Ganaie M.A., Hu Minghu, Malik A.K., Tanveer M., Suganthan P.N. Ensemble deep learning: A review. Engineering Applications of Artificial Intelligence. 2022. P. 28-29
  • Li J., Sun A., Han J., Li C. A survey on deep learning for named entity recognition. IEEE Transactions on Knowledge & Data Engineering. 2022. Vol.34. N.1. P.50-70.
  • Лагутина Н.С., Васильев А.М., Зафиевский Д.Д. Задачи в области распознавания именованных сущностей: технологии и инструменты. Моделирование и анализ информационных систем. 2023. №30(1). С.64-85.
  • Brown T., Mann B., Ryder N., Subbiah M., Kaplan J.D. Language Models are Few-Shot Learners // In: Advances in Neural Information Processing Systems. Vol.33. Curran Associates, Inc., 2020. P.1877-1901.
  • Wei Jason, Bosma Maarten, Zhao Vincent Y., Guu Kelvin Finetuned language models are zero-shot learners. Conference paper at ICLR 2022. 2022. DOI: 10.48550/arXiv.2109.01652.
  • Kaplan J., McCandlish S., Henighan T., Brown T.B., Chess B., Child R., Gray S., Radford A., Wu J., Amodei D. Scaling Laws for Neural Language Models. 23 Jan 2020. 19 p. DOI: 10.48550/arXiv.2001.08361.
  • Shichao Sun, Ruifeng Yuan, Ziqiang Cao, Wenjie Li, Pengfei Liu. Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization // In Findings of the Association for Computational Linguistics ACL 2024. Bangkok, Thailand and virtual meeting. Association for Computational Linguistics, 2024. P.7551–7558.
  • Zagorulko Yu.A., Borovikova O.I. Using a System of Heterogeneous Ontology Design Patterns to Develop Ontologies of Scientific Subject Domains // Programming and Computer Software. 2020. 46(4). P.273–280.
  • Gangemi A., Presutti V. Ontology Design Patterns // Handbookon Ontologies. Springer, 2009. P.221-243.
  • Dewayne Whitfield Using GPT-2 to Create Synthetic Data to Improve the Prediction Performance of NLP Machine Learning Classification Models // Computation and Language. arXiv preprint arXiv: 2104.10658, 2020.
  • Sidorova E., Akhmadeeva I. The software environment for multi-aspect study of lexical characteristics of text // In: Alexander Elizarov, Boris Novikov, Sergey Stupnikov (eds.): Data Analytics and Management in Data Intensive Domains. Proc. of the XXI International Conference DAMDID/RCDL'2019. Kazan, 2019. P.380-389.
Еще
Статья научная