Исследование методов автоматического формирования ассоциативно-иерархического портрета предметной области

Автор: Золотарев Олег Васильевич, Шарнин Михаил Михайлович, Клименко Станислав Владимирович, Мацкевич Андрей Георгиевич

Журнал: Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление @vestnik-rosnou-complex-systems-models-analysis-management

Рубрика: Управление сложными системами

Статья в выпуске: 1, 2018 года.

Бесплатный доступ

В работе рассматриваются проблемы семантического моделирования, методики автоматизированного выявления иерархических, синонимических и ассоциативных связей из интернет-текстов и построение лингвостатистических портретов различных предметных областей. Исследование основано на гипотезе о том, что более общие термины имеют больше ассоциативных связей, а также о привлечении ассоциативных связей для определения значения, полный смысл которого выявляется с помощью контекстных окружений, что дает возможность автоматизации процесса разграничения значений и извлечения знаний из текстов. Решение проблемы строится на основе комплексного подхода, сочетающего методы статистики, корпусной лингвистики и дистрибутивной семантики, и реализуется в технологии, которая предполагает разработку лингвостатистических механизмов формирования ассоциативно-иерархического портрета предметной области (АИППО), представляющего собой словарь значимых терминов предметной области, элементы которого связаны ассоциативными и иерархическими связями. Работы проводятся на основе анализа различных предметных областей, в частности - по автономным необитаемым подводным аппаратам (АНПА).

Еще

Ассоциативные связи, ассоциативный портрет предметной области, онтология, иерархические связи, синонимические связи, контекстное окружение, векторные пространства

Короткий адрес: https://sciup.org/148308996

IDR: 148308996   |   DOI: 10.25586/RNU.V9187.18.04.P.91

Текст научной статьи Исследование методов автоматического формирования ассоциативно-иерархического портрета предметной области

Методика построения АИППО

Описываемый в работе подход по построению ассоциативно-иерархического портрета предметной области (АИППО) основывается на проведении автоматического статистического анализа больших объемов текстов из Интернета [3–5]. Иерархические связи, входящие в АИППО, образуют полииерархию и классификатор, облегчающие поиск и навигацию в предметной области АНПА (ПО АНПА). Подобная методика позволяет решать широкий класс задач как в области когнитивной семантики, так и в сфере информационно-поисковых систем, так как АИППО может в большинстве случаев, связанных с контекстным поиском, заменить или дополнить тезаурус/ онтологию предметной области, составление которого вручную представляет собой весьма трудоемкую задачу. Дополнительно проект затрагивает следующие задачи: мониторинг новых объектов, фактов и идей в ПО АНПА, автоматическая классификация новых объектов по классификатору АИППО, в частности вид/тип аппарата АНПА, его характеристики, компания-производитель, ее руководство, сотрудники, конкуренты, партнеры и т.д., как часто упоминается объект в различные периоды времени, тональность сообщений, источник информации, установление границ предметной области; развитие интеллектуальных интернет-технологий; автоматизированное формирование интерактивных предметно ориентированных энциклопедий; визуализация результатов интерактивного сетевого поиска (визуальные карты предметной области) [6; 8].

Методика построения ассоциативно-иерархического портрета предметной области (АИППО) основана на структуризации текстов предметной области и построении иерархии категорий, в которой для расчета иерархических связей между ЗС/ЗТ (значимые слова/значимые термины) используются методы тематического моделирования, такие, как LDA и hLDA. Выделенные по указанным методикам ассоциативные и иерархические связи между значимыми словосочетаниями и терминами позволяют разрабатывать более совершенные методы и метрики/меры подобия научных текстов.

Итак, методы тематического моделирования служат для построения тематической модели коллекции документов. Тематическая модель определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдается числовой вектор, составленный из оценок степени принадлежности данного документа к каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически.

Далее коллекция документов, относящихся к одной предметной области обрабатывается специальным программным обеспечением.

Для анализа и обработки больших текстовых массивов первоначально надо провести разметку текста. Для этого существует множество способов и инструментов, в том числе общедоступных. Например, язык разметки RDF (Resource Description Framework) – среда описания ресурса, разработка консорциума W3C для описания метаданных; OWL (Web Ontology Language) – язык описания онтологий для семантической разметки информации, представленной в сети Интернет и т.д. [9]. В нашей работе используется оригинальная, разработанная в ИПИ РАН, система разметки текстов – PullEnty, в результате работы которой в тексте выделяются именованные типизированные сущности (персоны, организации, местоположения, даты, связи, …), события, их характеристики, например время, когда это событие произошло, действия и т.д. [10]. Кроме этого в работе используется инструмент анализа семантики текста, основанный на дистрибутивной семантике и векторном представлении слов – Word-2Vec [1; 2], который в результате обработки текста сопоставляет каждому слову вектор. Векторное представление строится на основе контекстной близости: считается, что слова, находящиеся ближе друг к другу, будут иметь похожие значения координат

Серия «Сложные системы …». Выпуск 1

векторов слов. Степень сходства документов оценивается на основе косинусного рас- стояния:

di bi

/=1

cos ( a ) =

nn

J E ( di )\ IE ( bi ) 2 i = 1                 i = 1

Здесь d и b – текстовые документы из коллекции документов, n – количество слов в словаре, составленном из слов коллекции документов, исключая стоп-слова (предлоги, союзы, местоимения и т.д.). Каждый документ представляется как разреженный вектор (потому что только отдельные слова из словаря входят в каждый документ):

D = ( d 1, d 2, … di , ..., dn ).

Здесь каждое значение di представляет частоту встречаемости i -го слова из словаря в тексте D , n – общее количество слов в словаре.

Модели векторных представлений, семантическое контекстное пространство

Разработчики СВП отмечают, что основная проблема известных семантических пространств – это недостаточный учет порядка слов в контексте. Для решения этой проблемы следует перейти от контекста слов к контексту значимых словосочетаний. Более того, технология СВП развивалась для английского языка. Проект СКП пред- полагает работу как с русским, так и с английским языками. Возможно в дальнейшем включение других языков. Построение семантического контекстного пространства СКП направлено на развитие методов СВП для решения следующих задач:

  • 1.    Выявление синонимии и семантической близости слов и словосочетаний путем оценки их встречаемости в различных контекстах.

  • 2.    Поиск категорий терминов и отношений с помощью лексико-синтаксических форм.

  • 3.    Выявление близких по смыслу отношений и их классификация методами статистического анализа контекстных зависимостей.

  • 4.    Автоматическая кластеризация слов по степени их близости в СКП и классификация слов путем использования лексико-семантических форм.

  • 5.    Автоматическая генерация тезаурусов методами статистической обработки терминов и разрешение неоднозначности слов путем использования контекста.

  • 6.    Расширение запросов за счет ассоциативных связей и извлечение знаний из текстов с использованием статистических методов и лингвистических моделей.

  • 7.    Оценка степени сходства лексических конструкций на основе их лексикосемантического анализа.

  • 2.1)    поиск иерархических связей терминов с помощью методов кластеризации в пространстве контекстных векторов из значимых словосочетаний (ЗС);

  • 2.2)    поиск ассоциативных и иерархических связей при помощи методов тематического моделирования, включая построение полииерархии тем и аннотации произвольного размера из ключевых фраз для корпуса/коллекции;

  • 2.3)    поиск иерархических связей с помощью методов кластеризации в пространстве тематических векторов по результатам тематического анализа (LDA);

  • 2.4)    поиск иерархических связей с помощью лингвистического процессора PullEnty, который выделяет различные типы объектов, например люди и организации, относящихся к заданной предметной области;

  • 2.5)    поиск иерархических и ассоциативных связей по различным лексическим шаблонам, например АНПА XXX (АНПА Ремус, АНПА Гавиа);

  • 2.6)    поиск ассоциативных связей по косинусной мере между контекстными векторами ЗС;

  • 2.7)    поиск связей перевода и ассоциативных связей при помощи программ перевода;

  • 2.8)    объединение найденных иерархических связей по методу патентных заявок USPTO 20100161671 и 61/096255, в которых представлено изобретение, использованное Шарниным М.М. для построения одной из крупнейших иерархий категорий для электронной энциклопедии Keywen.

Описание разработанных программных средств

Коллективом разработана технология автоматического поиска научно-технических документов в Интернете и построения их коллекций. Также разработана технология автоматического выделения библиографических ссылок в найденных документах. Размер коллекции, построенной авторским коллективом из открытой информации в Интернете по тематике «Автономные необитаемые подводные аппараты» (АНПА), составляет более 200 документов.

Для пополнения коллекций текстов из Интернета разработан усовершенствованный метод (KeyCrawler-2) семантического поиска ЕЯ-текстов из Интернета с целью направленного извлечения из текстов информации для построения онтологий, в котором собственный поисковый робот в качестве начальных адресов в Интернете (URL) использует не только крупнейшие поисковики, но также каталоги электронных библиотек/магазинов и собственную разработку научного коллектива – энциклопедию ключевых понятий KEYWEN. KeyCrawler-2 по заданным ключевым терминам строит не только интернет-корпуса естественно-языковых текстов, но также строит тематические коллекции научных документов (PDF) с названиями, авторами и библиографическими ссылками. Метод KeyCrawler-2 апробирован на ряде предметных областей, включая АНПА. Разработан модуль статистического анализа для алгоритма формирования ассоциативно-иерархического портрета предметной области (АИППО).

Данный модуль статистического анализа включает в себя:

Серия «Сложные системы …». Выпуск 1

С помощью метода KeyCrawler-2 составлена коллекция научно-технических публикаций (статьи, диссертации, монографии) по выбранным предметным областям для проведения экспериментов, размером более 10 000 документов, в том числе коллекция по теме АНПА содержит более 200 документов, по теме «компьютерная графика» – более 900 документов, в которых выявлены ссылки еще на 6 000 документов.

Заключение

В результате проделанной работы разработан макетный вариант онтологии предметной области АНПА, выделены концептуальные термины предметной области (классы, целевое назначение, конструктивный облик, навесное оборудование, режим использования, виды работ, профильные компании и учреждения), представлены системы понятий и коллекции экземпляров [7].

Мы благодарны РФФИ за поддержку и финансирование наших проектов.

Список литературы Исследование методов автоматического формирования ассоциативно-иерархического портрета предметной области

  • Matt J. Kusner, Yu Sun, Nisholas I. Kolkin, Kilian Q. Weinberger. From Word Embeddings To Document Distances//Proceedings of the 32 nd International Conference on Machine. Learning. -Lille, France, 2015. JMLR: W&CP. -Vol. 37.
  • Mikolov, Tomas, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous SpaceWord Representations//Proceedings of NAACL-HLT 2013, Atlanta, Georgia, 9-14 June 2013. Association for Computational Linguistics. -2013. -P. 746-751.
  • Золотарев О.В. Новые подходы в формировании функциональной структуры предметной области/О.В. Золотарев//Двадцать лет постсоветской России: кризисные явления и механизмы модернизации: материалы XIV Всероссийской научно-практической конференции Гуманитарного университета: в 2 т. -Екатеринбург, 2011. -С. 639-643.
  • Золотарев О.В., Шарнин М.М. Методы извлечения знаний из текстов естественного языка и построение моделей бизнес-процессов на основе выделения процессов, объектов, их связей и характеристик//Труды Международной научной конференции CPT2014 Международная научная конференция Московского физико-технического института (государственного университета) Института физико-технической информатики. Институт физико-технической информатики. -М., 2015. -С. 92-98.
  • Шарнин М.М., Золотарев О.В., Сомин Н.В. Извлечение и обработка знаний из неструктурированных текстов деловой сферы и социальных сетей//Социальный компьютинг: основы, технологии развития, социально-гуманитарные эффекты: материалы Четвертой Международной научно-практической конференции. -М., 2015. -С. 364-371.
  • Шарнин М.М., Шагаев И., Протасов В.И., Родина И.В., Золотарев О.В., Попова О.А. Использование веб-семантики для совершенствования образовательных программ вузов//Rhema. Рема. -2015. -№ 2. -С. 97-112.
  • Клименко И.С. Теория систем и системный анализ: учебное пособие. -М., 2014.
  • Золотарев О.В. Методы выделения процессов, объектов, отношений из текстов естественного языка//Проблемы безопасности российского общества. -2014. -№ 3-4. -С. 276-283.
  • Клименко С.В., Золотарев О.В., Шарнин М.М. Использование онтологического подхода для анализа текстов естественного языка//Вестник Российского нового университета. Серия «Сложные системы: модели, анализ и управление». -2017. -№ 1. -С. 67-71.
  • Золотарев О.В., Шарнин М.М., Клименко С.В., Кузнецов К.И. Система PullEnty -извлечение информации из текстов естественного языка и автоматизированное построение информационных систем//Ситуационные центры и информационно-аналитические системы класса 4i для задач мониторинга и безопасности (SCVRT2015-16): труды Международной научной конференции: в 2 т. -М., 2016. -С. 28-35.
Еще
Статья научная