Принципы установления связей в лингвистических онтологиях

Автор: Манжула Оксана Владимировна

Журнал: Евразийский гуманитарный журнал @evrazgum-journal

Рубрика: Общие вопросы языкознания

Статья в выпуске: 2, 2019 года.

Бесплатный доступ

В статье рассматриваются особенности образования лингвистических онтологий и принципы установления в них связей между терминами и выражениями, особенности установления иерархии понятий. Отмечается проблема необходимости проведения большого объема работы для создании онтологии при обработке терминов вручную и описываются способы облегчения деятельности по созданию онтологий предметных областей при автоматизированном способе работы с онтологиями. Описывается методика и средства автоматизированной работы по формированию онтологий. Указывается также актуальность автоматизации данной области лингвистики.

Лингвистическая онтология, компьютерная лингвистика, профессиональная лексика, обработка текстовой информации, концептуализация предметной области, реферирование текста, тезаурус

Короткий адрес: https://sciup.org/147227712

IDR: 147227712

Текст научной статьи Принципы установления связей в лингвистических онтологиях

В настоящее время из-за больших объемов электронных документов возрастает потребность в обработке неструктурированной текстовой информации, а также в повышении эффективности методов обработки текстов, которые используются в данный момент. Актуальными задачами являются поиск информации, рубрикация, фильтрация и кластеризация текстов, поисковые запросы, аннотирование документа, поиск аналогичных тестов, поиск дублирующих текстов на разных языках. В связи с этим, актуальным способом обработки данных является обработка при помощи лингвистических онтологий.

Основная часть

Под онтологией мы понимаем систему понятий определенной предметной области, представляющую собой набор сущностей, которых соединяют различные отношения. Исследователи Б.В. Добров и Н.В. Лукашевич определяют онтологию как «систему явной концептуа-

'Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-012-00825

лизации предметной области, то есть формального представления предметной области» [Добров, Лукашевич, 2007, с. 49].

Онтологии широко используются в компьютерной лингвистике для спецификации понятий и отношений, характеризующих область знаний. Удобство применения онтологий ка способа представления предметных знаний обусловлено их формальной структурой, значительно упрощающей обработку их компьютерными программами.

Если мы будем рассматривать лингвистическую онтологию в отношении автоматической обработки текста, то здесь можно отметить два варианта установления связей между лингвистическими онтологиями определенных предметных областей и лексиконом этих предметных областей. В рамках одного из вариантов, вначале выстраивается система понятий, к которым прикрепляются наборы терминов, слов, словосочетаний. Машины обнаруживают эти выражения в текстах, и это дает возможность идентифицировать соответствующие понятия и все, что связано с ними. В рамках другого варианта, имеющиеся в употреблении лингвистические ресурсы, такие, как глоссарии, специальные словари и тезаурусы могут задавать концептуализацию данной предметной области. Как утверждают исследователи, «При применении таких ресурсов обычно необходимо автоматически разрешать многозначность слов, то есть выбирать их правильное значение» [Лукашевич, Добров, 2015, с. 48].

В качестве одного из самых известных примеров лингвистической онтологии мы можем привести онтологию WordNet. Данная лингвистическая онтология выводит систему значений слов общезначимого английского языка как иерархическую структуру. Вследствие этого, появляются множественные проекты, описывающие терминологическую систему определенной предметной области на базе модели лингвистической онтологии WordNet, таким образом, они разрабатывают лингвистическую онтологию данной предметной области.

Лексические онтологии в современной действительности применяются в качестве баз данных для компьютерных приложений. Так, они используются для поиска информации, проведения анализа текста, выделения необходимого знания, эффективной обработки множественной информации. Лингвистические онтологии дают возможность программе выделить необходимые семантические отличия, понятные для людей, но не идентифицируемые машиной.

Лингвистические онтологии не являются новым понятием в языкознании, однако, в современном применении они используются с конца XX в. Множественные работы по созданию и применению лингвистических онтологий проводятся в области прикладной лингвистики в России и за рубежом. Наиболее значимыми мы считаем исследования П. Бутелаара, Ф. Чимиано, П. Хаазе, Б.В. Доброва, Н.В. Лукашевич. Самыми большими лингвистическими онтологиями являются SUMO, OMEGA, DOLCE. Лингвистические онтологии популярны во многих отраслях науки, поскольку они позволяют обработать данные наязыке,свойственном определенной науке.

Поскольку лингвистические онтологии используются в компьютерных программах, встает вопрос стандартизации способов их представления. Повсеместно развиваются языки, применяющиеся в разных системах. Примерами таких языков могут послужить RDFS и OWL. Разрабатывается множество редакторов для работы с лингвистическими онтологиями, которые взаимодействуют с конкретным форматом данных.

Лингвистическая онтология работает следующим образом. Сначала создается большой корпус, включающий в себя множество текстов, которые относятся к определенным предметным областям, для которых предназначается лингвистическая онтология. Затем из собранных текстов извлекаются термины, слова и словосочетания, являющиеся значимыми в данных предметных областях. Это производится при помощи автоматизированных операций.

На следующем этапе с предложенным корпусом и со словарями данных предметных областей работают специалисты для изучения приведенных языковых выражений, их определений в словаре, употребления в текстах, определения понятий для соответствия приведенных языковых выражений.

Специалисты набирают для понятий по корпусу максимально возможное количество выражений, значения которых соответствуют данному понятию. Эти выражения называют терминами онтологии. Вслед за этим специалисты проводят концептуальный анализ каждого понятия с целью определения отношений его онтологической зависимости.

Отношения онтологической зависимости значимы для широкого круга понятий, их выявляют посредством анализа определений соответствующих терминов в терминологических словарях, вариантов употреблений в текстовых контекстах и сопоставления определений и контекстов. Поэтому процесс создания лингвистической онтологии состоит из следующих этапов: «формирование терминологической базы некоторой предметной области по массиву текстовой информации; анализ полученной информации человеком-экспертом, с целью «фильтрации» терминов и указания определения данных терминов; установление человеком-экспертом отношений между набором терминов предметной области» [Абрамов, 2010, с. 52].

При автоматической обработке текстов происходит быстрое формирование лингвистической онтологии для определенной предметной области. В компьютерной лингвистике разработаны современные средства для работы с лингвистической онтологией, а работа экспертов обеспечивается поддержкой. Например, им предоставляются средства для автоматизированного разделения и объединения лингвистических онтологий для различных целей. Для облегчения их деятельности, разработаны специальные алгоритмы и методы построения тематического представления содержания текста посредством понятий лингвистических онтологий.

При автоматизированной работе с лингвистическими онтологиями, используются методы компьютерного аннотирования, деления, рубрицирования, реферирования текста по тематическому принципу. При использовании современных технологий, лингвистические онтологии задействованы для анализа и конкретизации результатов поисковых запросов.

В традиционной лингвистике на каждом из этапов необходимо участие человека. Например, на этапе формирования текстовой информации, человек определяет содержание и структуру текста, оценивая содержание как принадлежность текста к предметной области, а под структурой понимая порядок следования структурных элементов текста в определенной последовательности. Также, при определении размера текста, человек накладывает ограничение на размер текстового фрагмента, который он обрабатывает, поскольку статистические методы обработки зависят от объема исследуемого фрагмента. Эти допущения и ограничения позволят в некотором смысле универсализировать построение лингвистической онтологии текста на естественном языке.

Таким образом, на этапе формирования текстовой информации из текста необходимо выбрать термины для включения в онтологию. Необходимо отметить, что при отборе терминов-«кандидатов» словарный запас и частота использования слов зависят от темы текста. Машинная обработка онтологии подразумевает, что ключевые слова текста (слова, частота повторения которых в тексте выше других) являются основными и именно их компьютер включает в разряд терминов. Статистические методы поиска ключевых слов в тексте используются компьютерными программами обработки из-за их простоты и независимости от ресурсов.

В связи с обработкой данных машиной при составлении лингвистических онтологий, структура лексической онтологии представляет собой следующий набор элементов: «понятия, отношения, аксиомы, отдельные экземпляры» [Константинова, Митрофанова, 2008, с. 9].

Лингвистические онтологии охватывают огромное количество терминов предметной области и в то же время обладают онтологической структурой, которая проявляется в отношениях между понятиями. Таким образом, мы рассматриваем лингвистическую онтологию в виде особой лексической базы данных.

Понятия в лингвистической онтологии рассматриваются как имеющие принадлежность к классу представителей предмета или явления (например, Насекомое, Жизнь). Классы или понятия представляют собой общие категории, которые можно включить в некую иерархию. Такой класс обычно описывает группу индивидуальных сущностей, объединенных на основании наличия общих атрибутов. Понятия также связаны определенными отношениями (например, Высота, Расположение), которые соединяют и описывают классы. Чаще всего в онтологиях используется отношение категории, когда определенный предмет или понятие относится к определенной категории. Этот тип отношений имеет ряд других названий, встречающийся в различных исследованиях:

  • —    таксономическое отношение;

  • —    отношение IS-A;

  • —    класс — подкласс;

  • —    лингвистика: гипоним — гипероним;

  • —    родо-видовое отношение;

— отношение a-kind-of [Константинова, Митрофанова, 2008, с. 10].

Аксиомы в таком случае можно рассматривать как задающие условия соотнесения категорий и отношений. Аксиомы несут в себе очевидные утверждения, которые связывают понятия и отношения. Аксиомой мы можем считать утверждение, которое вводится в онтологию в уже готовом виде, при этом, из аксиомы выводятся другие утверждения. Они выражают информацию, которая не может быть отражена в онтологии вследствие построения иерархии понятий и установки различных отношений между ними.

Пример аксиомы: «Если N обманщик, то он кого-нибудь обманет». Благодаря аксиомам, в дальнейшем компьютерные программы могут осуществлять умозаключения в рамках онтологии. Аксиомы дают информацию о правилах, которые позволяют добавлять информацию автоматически. Аксиомы иногда представляют собой ограничения, которые накладываются на определенные отношения, делающие возможным выведение умозаключений. Так ограничения понятий указывают на то, какой тип понятиявыражает определенное отношение.

Также в онтологии входят термины-экземпляры. Экземплярами называются представители класса сущностей или явлений, конкретные элементы категории. Так, экземпляром класса млекопитающие является собака Стрелка. Экземпляры в онтологии выстраиваются в иерархии. На высшем уровне такой иерархии будут находиться категории, на нижнем — конкретные экземпляры. При этом отмечается, что в тех проектах, где ключевым понятием является коллекция (ОрепСус) «Экземпляром коллекции может быть любой термин онтологии» [Соловьев, Добров, Иванов, Лукашевич, 2006, с. 22].

Для обеспечения автоматической работы этих свойств используется определенный перечень отношений, аналогичный набору отношений в классических информационнопоисковых тезаурусах. Дополнительно вводятся более ограниченные онтологические определения данных отношений. Упомянутая система отношений показывает важные связи между сущностями, она также применяется с целью описания отношений между понятиями во многих предметных областях, что является доказательством универсальности предложенной модели. Неоспорима также способность данной модели описывать базовые свойства и базовые отношения понятий, которые имеются во всех предметных областях. Поскольку созданные ресурсы представлены в большом объеме, это является еще одним доказательством удобства данной модели.

Заключение

Разработка лингвистических онтологий — это перспективное направление современных исследований в области обработки информации, которая представлена на естественном языке. При формировании лингвистических онтологий возникает ряд проблем, которые более успешно решаются при помощи автоматизированных систем. На данный момент имеется множество лингвистических онтологий, которые формируются по определенному алгоритму. Также в данный момент существуют приложения, которые успешно используют лингвистические онтологии в работе.

Список литературы Принципы установления связей в лингвистических онтологиях

  • Абрамов А.В. Создание лингвистической онтологии образовательной предметной области // Ученые записки. Электронный научный журнал Курского государственного университета. Курск, 2010 № 2(14). С. 53-61.
  • Добров Б.В., Лукашевич Н.В. Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного поиска // Ученые записки Казанского государственного университета. Физико-математические науки. 2007 г. Том 149, кн. 2. С. 49-72.
  • Лукашевич Н.В., Добров Б.В. Проектирование лингвистических онтологий для информационных систем в широких предметных областях // Онтология проектирования. Издательство: Предприятие «Новая техника». Самара, 2015 № 1(15). С. 47-69.
  • Митрофанова О.А., Константинова Н.С. Онтологии как системы хранения знаний / Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению "Информационно-телекоммуникационные системы". 2008. T. 48. № 2. С. 1-4.
  • Соловьев В.Д., Добров Б.В., Иванов В.В., Лукашевич Н.В. Онтологии и тезаурусы. Казань, Москва: Казанский государственный университет, МГУ им. М.В. Лоионосова. 2006. 157 с.
Статья научная