Разработка системы извлечения информации из текстов на русском языке в области криминалистики

Крутиков Никита Олегович; Подаков Никита; Жилякова Валерия Андреевна

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Разработка системы извлечения информации из текстов на русском языке в области криминалистики

Автор: Крутиков Никита Олегович, Подаков Никита, Жилякова Валерия Андреевна

Журнал: Проблемы информатики @problem-info

Рубрика: Прикладные информационные технологии

Статья в выпуске: 3 (32), 2016 года.

Бесплатный доступ

В данной статье описывается подход к разработке системы извлечения информации из текстов на русском языке в предметной области «Криминалистика». Для начала опишем подробнее поставленную задачу. Разрабатываемая система должна извлекать из текстов встречающиеся в них именованные сущности, такие как люди и организации, события. Также для извлеченных сущностей должны заполняться их атрибуты, такие как имя, фамилия, пол, дата рождения для людей, название и тип для организаций, время и место для событий. Между событиями и именованными сущностями должны выделяться семантические связи, с указанием семантической роли зависимых сущностей (например, субъект и объект). Разные семантические сущности описывающие один реальный объект (человека, организацию или событие) должны склеиваться посредством разрешения кореференции с объединением их аттрибутов. Для анализа текстов в системе используется библиотека RCO FX Ru, которая использует подход, основанный на правилах. Эта библиотека предоставляет следующую информацию: список всех семантических сущностей, выделенных из текста, их морфологические и синтаксические атрибуты, а также синтактико-семантический граф каждого предложения. Для решения задачи был построен и размечен корпус текстов, разработана онтология предметной области, на основе RCO FX реализована система правил и шаблонов, извлекающих необходимые сущности, события и связи между ними. После анализа текст преобразовывается в модель rdf и сохраняется в rdf-хранилище. Также в системе реализован модуль визуализации, позволяющий пользователю просматривать результаты анализа текстов, осуществлять поиск среди выделенной информации, и использовать различные фильтры, отсеивающие наиболее важную информацию. Используемый в системе подход позволяет извлекать информацию из предметных текстов с точностью 70-80% при полноте 30-35%.

Извлечение информации, правила, именованные сущности, события, отношения, онтологии

Короткий адрес: https://sciup.org/14320314

IDR: 14320314 | УДК: 004.852

Список литературы Разработка системы извлечения информации из текстов на русском языке в области криминалистики

Кормалев Д. А. Обобщение и специализация при построении правил извлечения информации/7 Конф. КИИ 2006. Т. 2. М.: Физматлит, 2006. С. 572-579.
Куршев Е. П., Кормалев Д. А., Сулейманова Е. А., Трофимов И. В. Исследование методов извлечения информации из текстов с использованием автоматического обучения и реализация исследовательского прототипа системы извлечения информации/7 Математические методы распознавания образов: 13-я Всерос. конф. Ленинградская обл., г. Зеленогорск, 30 сентября 6 октября 2007. Сборник докладов. М.: МАКС Пресс, 2007. С. 602-605.
Ермаков А. Е. Извлечение знаний из текста и их обработка: состояние и перспективы//Информационные технологии. 2009. № 7.
Симаков К. В. Модели и методы извлечения знаний из текстов на естественном языке: автореф. дис. канд. техн. наук: 05.13.17. М. 2008.
Андреев А. М., Березкин Д. В., Симаков К. В. Метод обучения модели извлечения знаний из естественно-языковых текстов//Вестник МГТУ. Приборостроение. 2007. № 3. С. 75-94.
Томита-парсер/Сайт технологии Томита-парсер. . https://tech.yandex.ru/tomita/(дата обращения: 11.05.2016).
GitHub -yandex/tomita-parser/GitHub, Inc. Открытый исходный код проекта Томита-арсер. 2016. , https://github.com/yandex/tomita-parser/(дата обращения 11.05.2016).
О технологии ABBYY Compreno/ABBYY. Описание технологии ABBYY Intelligent Search SDK. 2016. , http://www.abbyy.ru/isearch/compreno/(дата обращения: 11.05.2016).
RCO Fact Extractor SDK/ООО „ЭР СИ О". Сайт продукта,RCO Fact Extractor SDK". 2016. . http://www.rco.ru/?page\_id=3554 (дата обращения: 11.05.2016).
Brat rapid annotation tool. , http://brat.nlplab.org/(дата обращения: 29.03.2016).
Материалы конференции DIALOGUE 2014. . http://www.dialog-21.ru/dialogue2014/results//(дата обращения: 29.05.2016).
RU-EVAL-2014: Evaluating Anaphora and Coreference Resolution for Russian . http://www.dialog21.ru/digests/dialog2014/materials/pdf/ToldovaSJu.pdf//(дата обращения: 29.05.2016).
Толпегин П. В. Новые методы и алгоритмы автоматического разрешения референции местоимений третьего лица русскоязычных текстов. М.: КомКнига, 2006.
Результаты соревнований Диалог-2016 по выделению именованных сущностей , http://pullenti.ru/DownloadFile. aspx?f ile=FactRuEval.pdf//(дата обращения: 29.05.2016).
Poly Analyst -Анализ данных. Анализ текста. Единый инструментарий/Megaputer Intelligence, Inc. Сайт продукта PolyAnalyst 2015. , http://megaputer.ru/polyanalyst.php (дата обращения: 11.05.2016).
Apache Jena/The Apache Software Foundation. Сайт проекта Apache Jena. 2015. , https://jena.apache.org/(дата обращения: 11.05.2016).
OpenRdf Sesame. , http://www.openrdf.org/(дата обращения: 01.03.2016).
dotNetRdf -Semantic Web, RDF and SPARQL Library for C#/.NET/Rob Vesse. Сайт проекта dotNetRdf. 2015. , http://dotnetrdf.org/(дата обращения: 11.05.2016).

Еще