Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей

Автор: Сердюк Юрий Петрович, Власова Наталья Александровна, Момот Седа Рубеновна

Журнал: Программные системы: теория и приложения @programmnye-sistemy

Рубрика: Медицинская информатика

Статья в выпуске: 1 (56) т.14, 2023 года.

Бесплатный доступ

В статье представлена система для извлечения упоминаний симптомов из медицинских текстов на естественном (русском) языке. Система осуществляет нахождение симптомов в тексте, их нормализацию (приведение к стандартной форме) и отождествление - отнесение найденного симптома к группе однотипных симптомов. Каждый этап обработки реализуется с помощью отдельной нейронной сети. Состав извлекаемых симптомов ограничен тремя видами заболеваний - аллергические и пульмонологические заболевания, а также коронавирусная инфекция (COVID-19). Представлен и описан аннотированный корпус предложений, использованный для обучения нейросети нахождению упоминаний симптомов, относящихся к этим трем заболеваниям. При разметке корпуса был использован простой XML-подобный язык. Для представления предложений, непосредственно поступающих на вход нейросети, предложен расширенный BIO-формат разметки. Для каждого этапа приведены оценки точности (для первого этапа точность оценивалась при строгом и гибком тестировании). Описаны подходы и реализация приведения к стандартной форме и отождествления упоминаний симптомов. Даны сравнения с аналогичными работами по извлечению симптомов из медицинских текстов на разных языках, а также показано место данной системы в системах поддержки принятия клинических решений.

Еще

Автоматическая обработка языка, нейронные сети, автоматическое извлечение информации, аннотированный корпус, упоминания симптомов, bert-модели, covid-19

Короткий адрес: https://sciup.org/143180115

IDR: 143180115   |   DOI: 10.25209/2079-3316-2023-14-1-95-123

Список литературы Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей

  • Sutton R. T., Pincock D., Baumgar D. C., Sadowski D. C., Fedorak R. N., Kroeker K.I. An overview of clinical decision support systems: benefits, risks, and strategies for success // npj Digit. Med.- 2020.- Vol. 6.- No. 3.- 17. ее
  • Kwan J. L., Lo L., Ferguson J., Goldberg H., Diaz-Martinez J. P., Tomlinson G., Grimshaw J. M., Shojania K. G. Computerised clinical decision support systems and absolute improvements in care: meta-analysis of controlled clinical trials // BMJ.-2020,- Vol. 370,- ni3216. ее
  • Sha L., Qian F., Chang B., Sui Zh. Jointly extracting event triggers and arguments by dependency-bridge RNN and tensor-based argument interaction, Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18) // Proceedings of the AAAI Conference on Artificial Intelligence.- 2018,- Vol. 32,- No. 1,- pp. 5916-5923.
  • Smirnova A., Cudre-Mauroux Ph. Relation extraction using distant supervision: A survey // ACM Computing Surveys.- 2019,- Vol. 51. No. 5,- 106,- 35 pp.
  • Le Th. A., Burtsev M.S. A deep neural network model for the task of named entity recognition // International Journal of Machine Learning and Computing.- 2019.-Vol. 9,- No. 1,- pp. 8-13. URL 98 107
  • Ji Z., Wei Q., Xu H. BERT-based ranking for biomedical entity normalization, AMIA Jt Summits Transl Sci Proc..- 2020.- pp. 269-277. arXivgJ 1908.03548 98
  • Anastasyev D. G. Annotated span normalization as a sequence labelling task, Papers from the Annual International Conference "Dialogue" (2021), Computational Linguistics and Intellectual Technologies.- vol. 20.- 2021.- ISBN 978-5-7281-3032-1.-pp. 8-15. 99 109
  • Anastasyev D. G. Exploring pretrained models for joint morpho-syntactic parsing of Russian, Papers from the Annual International Conference "Dialogue" (2020), Computational Linguistics and Intellectual Technologies.- vol. 19.- 2020.- ISBN 978-5-7281-3032-1.-pp. 1-12. I tl°s
  • Bodenreider O. The Unified Medical Language System (UMLS): Integrating biomedical terminology // Nucleic Acids Res.- 2004.- Vol. 32, suppl. 1.-pp. D267-D270. 99 ill
  • Coletti M. H., Bleich H. L. Medical subject headings used to search the biomedical literature // J. Am. Med. Inform. Assoc.- 2001,- Vol. 8,- No. 4,- pp. 317-323; Erratum in: J. Am. Med. Inform. Assoc.- 2001 - Vol. 8 - No. 6 - pp. 597. 99
  • Бледжянц Г. А., Исакова Ю. А., Осипов А. А. Апробация и внедрение эффективного использования инструментов объединенной базы медицинских знаний системой дистанционного образования инновационных субъектов // Человеческий капитал.-2020.- № S12-1.-C. 199-205. ¡¡^ -\99
  • Nesterov A., Zubkova G., Miftahutdinov Z., Kokh V., TutubalinaE., Shelmanov A., Alekseev A., Avetisian M., Chertok A., Nikolenko S. RuCCoN: Clinical concept normalization in Russian, Findings of the Association for Computational Linguistics: ACL 2022 (Dublin, Ireland).- 2022,- pp. 239-245. lie 117
  • Временные методические рекомендации Министерства здравоохранения Российской Федерации «Профилактика, диагностика и лечение новой коронавирусной инфекции (COVID-19)», Версия 14 (27.12.2021).- Министерство здравоохранения Российской Федерации.- 233 с. ,url) -jio5
  • Краткое руководство по разметке тестового корпуса. Задача «Medicine light», Версия 1.6.- ИСА РАН и НЦЗД,- 2014. @ t
  • Blinov P., Avetisian M., Kokh V., Umerenkov D., Tuzhilin A. Predicting clinical diagnosis from patients electronic health records using BERT-based neural networks, AIME 2020: Artificial Intelligence in Medicine, Lecture Notes in Computer Science.-vol. 12299, eds. M. Michalowski, R. Moskovitch, Cham: Springer.- 2020,- ISBN 978-3-030-59136-6.-pp. 111-121. I jus
  • Shelmanov A. O., Smirnov I. V., Vishneva E. A. Information extraction from clinical texts in Russian, Papers from the Annual International Conference "Dialogue" (2015), Computational Linguistics and Intellectual Technologies.-vol. 14,- 2015,- pp. 560-572. url ш
  • Sun Yu., Zhao Zh., Wang Zh., He H., Guo F., Luo Yu., Gao Q., Wei N., Liu J., Li G. -Zh., Li Z. Leveraging a joint learning model to extract mixture symptom mentions from traditional Chinese medicine clinical notes // BioMed Research International.- Vol. 2022, Conference Issue: Big Data for Biomedical Research.-2146236. 1ii4 115
  • Гаврилов Д. В., Кирилкина А. В., Серова Л. М. Алгоритм формирования подозрения на новую коронавирусную инфекцию на основе анализа симптомов для использования в системах поддержки принятия врачебных решений // Врач и информационные технологии.- 2020,-№4,-с. 51-58. I юб, иб, ие
  • Lybarger К., Ostendorf М., Thompson М., Yetisgen М. Extracting COVID-19 diagnoses and symptoms from clinical text: A new annotated corpus and neural event extraction framework // Journal of Biomedical Informatics.-2021.-Vol. 117.103761. юб lie
  • Zolotukhin D., Smurov I. RuNormAS-2021: A shared task on Russian normalization of annotated spans, Papers from the Annual International Conference "Dialogue" (2021), Computational Linguistics and Intellectual Technologies.-vol. 20.- 2021.- ISBN 978-5-7281-3032-1.- pp. 1245-1250. ioe
  • Dozat T., Manning C. D. Deep biaffine attention for neural dependency parsing.-2017.- 8 pp. ai'Xivtyf 1611.01734 110
  • Сорокин А. А., Макогонов С. В., Королев С. П. Информационная инфраструктура для коллективной работы ученых Дальнего Востока России // Научно-техническая информация. Сер. 1: Организация и методика информационной работы.- 2017.- № 12.- с. 14-16.
Еще
Статья научная