К вопросу об определении границ именных групп при решении задач автоматического извлечения информации из текстов на русском языке
Автор: Власова Наталья Александровна, Подобряев Алексей Владимирович
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Искусственный интеллект, интеллектуальные системы, нейронные сети
Статья в выпуске: 1 (28) т.7, 2016 года.
Бесплатный доступ
Рассматривается задача выделения сложных именных групп в русскоязычных публицистических текстах в приложении к задачам автоматического извлечения информации. Под сложными именными группами понимаются длинные именные группы, содержащие генитивные, предложные конструкции, а также имена собственные. Предлагается схема поиска границ именных групп, начиная с фрагмента текста, заведомо содержащего именную группу. Разработан алгоритм выделения таких фрагментов. Произведена их классификация на основании частоты встречаемости типов фрагментов, количества слов фрагмента, их частеречного состава, наличия уже выделенных именованных сущностей разных видов, информации о вхождении частей фрагментов в списки сложных предлогов и устойчивых сочетаний. Приводится первоначальная система признаков для построения алгоритма автоматического выделения именных групп в границах построенных на первом этапе анализа фрагментов. В экспериментальной части исследования произведено выделение фрагментов (58032 фрагмента) из коллекции текстов общественно-политической тематики (1000 документов), произведен анализ сложных случаев
Автоматическое извлечение информации, выделение именных групп, выделение именованных сущностей, извлечение ситуаций, синтаксический анализ
Короткий адрес: https://sciup.org/14336183
IDR: 14336183
Список литературы К вопросу об определении границ именных групп при решении задач автоматического извлечения информации из текстов на русском языке
- М. М. Брыкина, А. В. Файнвейц, С. Ю. Толдова. Извлечение и идентификация именованных сущностей с использованием словарей в русском языке//Актуальные инновационные исследования: наука и практика, 2013, №1, URL: http://www.hse.ru/pubs/share/direct/document/118232483.
- А. В. Подобряев. Региональный классификатор текстов для поиска упоминаний лиц в новостных текстах//Труды 16-й Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", RCDL 2014 (Дубна, Россия, 13-16 октября 2014). С. 214-216, URL: http://rcdl.ru/doc/2014/paper/RCDL2014_214-216.pdf.
- И. В. Трофимов. Выявление личных имен в новостных текстах на материале коллекций Persons-1000/1111-F//Труды 16-й Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", RCDL 2014 (Дубна, Россия, 13-16 октября 2014). С. 217-221, URL: http://rcdl.ru/doc/2014/paper/RCDL2014_217-221.pdf.
- Л. Г. Крейдлин. Программа выделения русских индивидуализированных именных групп TagLite//Компьютерная лингвистика и интеллектуальные технологии, Сборник трудов ежегодной международной конференции "Диалог", Диалог 2005, URL: http://www.dialog-21.ru/Archive/2005/Kreidlin%20LG/KreydlinL.pdf.
- П. И. Браславский, Е. А. Соколов. Автоматическое извлечение терминологии с использованием поисковых машин интернета//Компьютерная лингвистика и интеллектуальные технологии, Сборник трудов ежегодной международной конференции "Диалог", Диалог 2007, URL: http://www.kansas.ru/pb/paper/dialog2007.pdf.
- П. И. Браславский, Е. А. Соколов. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста//Компьютерная лингвистика и интеллектуальные технологии, Сборник трудов ежегодной международной конференции "Диалог", Диалог 2006. С. 88-94, URL: http://www.dialog21.ru/digests/dialog2006/materials/html/Braslavski.htm.
- Н. В. Лукашевич, Ю. М. Логачев. Комбинирование признаков для автоматического извлечения терминов//Вычислительные методы и программирование, 11 2010. С. 108-116, URL: http://nummeth.srcc.msu.ru/zhurnal/tom_2010/pdf/v11r211.pdf.
- С. О. Шереметьева, П. Г. Осминин. Методы и модели автоматического извлечения ключевых слов//Вестник ЮУрГУ. Серия Лингвистика, Т. 12, №. 1. 2015. С. 76-81, URL: http://vestnik.susu.ru/linguistics/article/download/3420/3157.
- Н. А. Власова. Извлечение информации о ситуациях отставокназначений в новостных текстах. Опыт разметки коллекции. Результаты тестирования//Труды 15-й Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", RCDL 2013 (Ярославль, Россия, 14-17 октября 2013). С. 145-154, URL: http://rcdl2013.uniyar.ac.ru/doc/full_text/s4_2.pdf.
- M. S. Kudinov, A. A. Romanenko, I. I. Piontkovskaja. "Conditional Random Field in segmentation and Noun Phrase inclination tasks for Russian", Dialogue 2014 (Bekasovo, Russia, 4-8 June 2014), Computational Linguistics and Intellectual Technologies, no.13(20), Papers from the Annual International Conference "Dialogue". P. 297-306, URL: http://www.dialog21.ru/digests/dialog2014/materials/pdf/KudinovMS.pdf.
- Д. А. Александровский, Д. А. Кормалев, М. С. Кормалева, Е. П. Куршев, Е. А. Сулейманова, И. В. Трофимов. Развитие средств аналитической обработки текста в системе ИСИДА-Т//Труды 10-й национальной конференции по искусственному интеллекту с международным участием. Т. 2, КИИ 2006 (Обнинск, Россия, 25-28 сентября 2006). С. 555-563.
- Д. А. Кормалев, Е. П. Куршев, Е. А. Сулейманова, И. В. Трофимов. Технология извлечения информации из текстов, основанная на знаниях//Программные продукты и системы, 2009, №2(86). С. 62-66.
- T. Brants. "TnT -A Statistical Part-of-Speech Tagger", Foundations of Statistical Natural Language Processing, eds. Ch. D. Manning, H. Schutze, MIT Press, Stanford, May 1999, URL: http://www.hlt.utdallas.edu/~sanda/courses/NLP/Brants.pdf.
- Национальный корпус русского языка, Ruscorpora, 2015, URL: http://www.ruscorpora.ru/.
- Е. А. Сулейманова, К. А. Константинов. Морфологический анализ незнакомых фамилий в русскоязычном тексте//Программные продукты и системы, 2009, №2(86). С. 66-71.
- Н. А. Власова. Об одной проблеме автоматического извлечения временной информации из русскоязычных текстов//Программные системы: теория и приложения, 2014, №4(22). С. 231-242, URL: http://psta.psiras.ru/read/psta2014_4_231-242.pdf.
- D. Koller, N. Friedman. Probabilistic Graphical Models, MIT Press, 2009.