Разработка сервиса для автоматического извлечения именованных сущностей из неструктурированных медицинских русскоязычных текстов

Автор: Ронжин Л.В., Астанин П.А., Раузина С.Е., Ядгарова П.А., Зарубина Т.В.

Журнал: Сибирский журнал клинической и экспериментальной медицины @cardiotomsk

Рубрика: Цифровые технологии в медицине и здравоохранении

Статья в выпуске: 2 т.40, 2025 года.

Бесплатный доступ

Введение. В настоящее время значительная часть медицинских данных формируется и хранится в неструктурированном (текстовом) виде. Одним из способов обработки неструктурированной информации является извлечение именованных сущностей (NER – Named entity recognition). В классическом представлении решение задачи NER при работе с медицинскими текстами сводится к поиску объектов или понятий, имеющих определенный контекст и связанных с упоминаемыми в тексте действиями или событиями. В качестве конечного множества терминов для решения подобной задачи может быть использована Унифицированная национальная медицинская номенклатура (УНМН), разрабатываемая с 2022 г. на основе международных и федеральных справочников, а также других источников. На момент выполнения исследования в открытой научной литературе не было найдено сведений о существовании инструмента для решения задачи NER при работе с неструктурированными медицинскими текстами на русском языке. Цель исследования: разработка инструмента для извлечения именованных сущностей из русскоязычных медицинских текстов. Материал и методы. В качестве терминологического свода для решения задачи распознавания именованных сущностей использовалась УНМН. В алгоритмы предобработки текста включены сегментация текста, токенизация и синтаксический разбор предложений, лемматизация и морфологический анализ слов. Тестирование инструмента проводилось на клинических рекомендациях (КР), актуальных на момент проведения исследования. Основной метрикой качества считалась доля автоматически верно распознанных терминов относительно экспертной разметки. Результаты. В ходе исследования был разработан Аннотатор медицинских текстов – сервис, предназначенный для решения задачи NER с последующими разметкой и категоризацией извлекаемых терминов УНМН. Данный сервис основан на использовании больших языковых моделей и собственных лингвистических правил. Аннотатор медицинских текстов может применяться для анализа текстов на русском языке с использованием любой терминологической системы. Аннотатор медицинских текстов является гибридным инструментом, обеспечивающим автоматическое извлечение до 93% терминов из свободного текста актуальных КР. Качество работы данного сервиса сопоставимо с зарубежными инструментами для решения задачи NER при работе с текстами на английском языке: cTAKES с точностью в 91% и MetaMap – с F1-score в 88% соответственно. Заключение. В статье представлен гибридный сервис для распознавания именованных объектов в неструктурированных медицинских текстах. Сервис был апробирован путем извлечения терминов УНМН из актуальных клинических рекомендаций с последующей проверкой медицинскими экспертами. Полученные результаты демонстрируют потенциал как этого инструмента, так и Унифицированной национальной медицинской номенклатуры.

Еще

NLP, обработка естественного языка, NER, извлечение именованных сущностей, УНМН, концепт, база знаний, онтология

Короткий адрес: https://sciup.org/149148598

IDR: 149148598   |   УДК: 004.912:004.413:004.4’242   |   DOI: 10.29001/2073-8552-2025-40-2-201-210

Development of a service for automatically extraction of medical concepts from Russian unstructured texts

Introduction. A significant part of medical data is currently generated and stored in an unstructured (textual) form. One way to process unstructured information is named entity recognition (NER). In the classical view, solving the NER problem within medical texts involves identifying objects or concepts that have a specific context related to the actions or events mentioned in the text. The National Unified Terminological System (NUTS) has been developed since 2022 based on international and federal medical thesauri and other sources. It can be used as the term set for solving problems of this type. At the time of the study, there was no available information in the scientific literature about tools solving NER problem in unstructured Russianlanguage medical texts. Aim: To develop a tool for extracting named entities from Russian-language medical texts. Material and Methods. Named entity recognition is performed using the NUTS as the terminological framework. The preprocessing pipeline includes full text segmentation, sentences tokenization and dependency parsing, words lemmatization and morphological analysis. The Annotation tool has been evaluated on clinical guidelines. The primary evaluation metric is the ratio of correctly identified terms to the total number of experts’ extracted terms. Results. As part of this study, the Annotation tool for medical texts has been developed. It is an automatized tool for extraction and categorization NUTS terms. This service is based on combined use large language models and rules. The Annotation tool can analyze texts in any language of the Indo-European group using any terminological system. The Annotation tool is hybrid and extracts automatically up to 93% of terms from the actual unstructured guidelines texts. The quality of this service is comparable to international NER tools for English-language texts: cTAKES with 91% accuracy and MetaMap with an F1-score of 88%. Conclusion. The article presents the Annotation tool a hybrid service for named entity recognition within unstructured medical texts. The service was validated by extraction of NUTS terms in current clinical guidelines, with subsequent verification by medical experts. The obtained results demonstrate the promising potential of both this tool and the National Unified terminology system (NUTS).

Еще