Разработка сервиса для автоматического извлечения именованных сущностей из неструктурированных медицинских русскоязычных текстов
Автор: Ронжин Л.В., Астанин П.А., Раузина С.Е., Ядгарова П.А., Зарубина Т.В.
Журнал: Сибирский журнал клинической и экспериментальной медицины @cardiotomsk
Рубрика: Цифровые технологии в медицине и здравоохранении
Статья в выпуске: 2 т.40, 2025 года.
Бесплатный доступ
Введение. В настоящее время значительная часть медицинских данных формируется и хранится в неструктурированном (текстовом) виде. Одним из способов обработки неструктурированной информации является извлечение именованных сущностей (NER – Named entity recognition). В классическом представлении решение задачи NER при работе с медицинскими текстами сводится к поиску объектов или понятий, имеющих определенный контекст и связанных с упоминаемыми в тексте действиями или событиями. В качестве конечного множества терминов для решения подобной задачи может быть использована Унифицированная национальная медицинская номенклатура (УНМН), разрабатываемая с 2022 г. на основе международных и федеральных справочников, а также других источников. На момент выполнения исследования в открытой научной литературе не было найдено сведений о существовании инструмента для решения задачи NER при работе с неструктурированными медицинскими текстами на русском языке. Цель исследования: разработка инструмента для извлечения именованных сущностей из русскоязычных медицинских текстов. Материал и методы. В качестве терминологического свода для решения задачи распознавания именованных сущностей использовалась УНМН. В алгоритмы предобработки текста включены сегментация текста, токенизация и синтаксический разбор предложений, лемматизация и морфологический анализ слов. Тестирование инструмента проводилось на клинических рекомендациях (КР), актуальных на момент проведения исследования. Основной метрикой качества считалась доля автоматически верно распознанных терминов относительно экспертной разметки. Результаты. В ходе исследования был разработан Аннотатор медицинских текстов – сервис, предназначенный для решения задачи NER с последующими разметкой и категоризацией извлекаемых терминов УНМН. Данный сервис основан на использовании больших языковых моделей и собственных лингвистических правил. Аннотатор медицинских текстов может применяться для анализа текстов на русском языке с использованием любой терминологической системы. Аннотатор медицинских текстов является гибридным инструментом, обеспечивающим автоматическое извлечение до 93% терминов из свободного текста актуальных КР. Качество работы данного сервиса сопоставимо с зарубежными инструментами для решения задачи NER при работе с текстами на английском языке: cTAKES с точностью в 91% и MetaMap – с F1-score в 88% соответственно. Заключение. В статье представлен гибридный сервис для распознавания именованных объектов в неструктурированных медицинских текстах. Сервис был апробирован путем извлечения терминов УНМН из актуальных клинических рекомендаций с последующей проверкой медицинскими экспертами. Полученные результаты демонстрируют потенциал как этого инструмента, так и Унифицированной национальной медицинской номенклатуры.
NLP, обработка естественного языка, NER, извлечение именованных сущностей, УНМН, концепт, база знаний, онтология
Короткий адрес: https://sciup.org/149148598
IDR: 149148598 | DOI: 10.29001/2073-8552-2025-40-2-201-210