Научные статьи \ Язык. Языкознание. Лингвистика. Литература \ Языкознание и языки. Лингвистика

Использование лексико-синтаксических шаблонов для формализации родо-видовых отношений в толковом словаре

Автор: Огородникова Екатерина Алексеевна

Журнал: Евразийский гуманитарный журнал @evrazgum-journal

Статья в выпуске: 2, 2017 года.

Бесплатный доступ

В статье рассматривается возможность использования метода лексико-синтаксических шаблонов для извлечения родо-видовых отношений глаголов. Данный метод уже используется для обработки существительных, но его эффективность при работе с глагольной лексикой не изучалась ранее.

Тезаурус, лексико-синтаксические шаблоны, глагол, гипонимия, семантика

Короткий адрес: https://sciup.org/147229757

IDR: 147229757 | УДК: 81-13

Текст научной статьи Использование лексико-синтаксических шаблонов для формализации родо-видовых отношений в толковом словаре

Одним из наиболее популярных и быстро развивающихся видов лексикографических ресурсов в последнее время является тезаурус. Благодаря особому формату, позволяющему использовать такие словари в различных прикладных целях, тезаурусы дают возможность представить лексику не в семантически разрозненном алфавитном порядке, а в более логичном и стройном с точки зрения содержания языковых единиц, тематическом разделении.

Основная часть

Отдельной ветвью развития электронных тезаурусов стала разработка WordNet-тезаурусов, первым из которых был Princeton WordNet¹. Лексика в таких словарях представлена в виде синсетов (синонимических рядов), объединённых различными типами семантических отношений [Fellbaum, 1998, р. 8], например, такими, как гипонимия, антонимия, меронимия, каузация и т.д. Структурообразующей иерархической связью в рамках WordNet-тезаурусов является гипонимия, или родовидовая связь. Глагольную гипонимию принято рассматривать как отношения тропонимии (от греч. tropos - «способ, манера») - этот термин был впервые введён создателями Princeton WordNet [Miller, 1993, р. 47].

Традиционные бумажные словари редко представляют отношения гипонимии, так как, во-первых, они редко являются предметом интереса рядового пользователя словаря, а во-вторых, для их отображения необходим особый формат, позволяющий отобразить большой объём информации в наглядном виде. Однако родо-видовые отношения широко используются при решении типичных прикладных лингвистических задач, например, в создании программ автоматической обработки текста, вопросно-ответных систем, в разрешении лексической многозначности, машинном переводе, автоматическом реферировании и т.д. Широкий спектр сфер для применения полученных результатов обусловливает актуальность проводимого исследования.

Гипонимические отношения могут быть выделены двумя способами: ручным методом с привлечением экспертов-лингвистов и автоматическим методом. В статье «Глагольная лексика в структуре электронных тезаурусов: проблема выделения тропонимических отношений» [Мухин, 2016] описан вариант извлечения тропонимических отношений с помощью компонентного анализа [Кобозева, 2000, с. ПО] и метода ступенчатой идентификации дефиниций [Кузнецова, 1989, с. 38] из словарных статей. Такая обработка словарных данных позволяет получить результаты высокого качества, но, в то же время, она требует больших временных затрат.

Оптимизировать процесс извлечения родо-видовых отношений можно с помощью привлечения автоматических методов. Так, метод лексико-синтаксических шаблонов зарекомендовал себя по отношению к существительным русского языка [Киселев, 2016], однако целесообразность его применения для обработки глагольной лексики ещё не подтверждена.

Метод анализа языкового материала на основе лексико-синтаксических шаблонов изначально использовался для извлечения различных семантических отношений из англоязычных текстов. Например, Марти Хэрст [Hearst, 1992; Hearst, 1998] выявила набор шаблонов для идентификации гипонимических отношений между существительными. Основным способом формирования новых шаблонов в её подходе является подбор уже готовых гипо-гиперонимических пар из WordNet и их тестирование в корпусе текстов. Так, из полученных результатов фиксируются окружения, в которых встречаются оба слова или выражения. Далее такие контексты анализируются, и на основе определённого количества контекстов формулируются лексико-синтаксические шаблоны.

Подобный метод применяли и другие исследователи при установлении семантических отношений между языковыми единицами. В частности, Сноу и др. в статье “Learning syntactic patterns for automatic hypernym discovery” [Snow, 2004] описали алгоритм извлечения лексико-синтаксический шаблонов на основе уже известных гипо-гиперонимических пар. Исследователи предлагают следующий способ: необходимо вычленить из контекстов предложения, содержащие два понятия, таксономические отношения между которыми уже установлены, затем проанализировать эти предложения и выделить из них устойчивые лексико-синтаксические шаблоны. Полученные результаты авторы апробируют на тестовом наборе существительных, определяя, действительно ли они связаны гипо-гиперонимическими отношениями.

Исследования, нацеленные на автоматизацию методов извлечения гипо-гиперониических отношений на основе лексико-синтаксических шаблонов, показывают сравнительно высокие результаты и качество выходного материала. Однако основной проблемой остаётся охват только одной части речи - имени существительного. Выделение родо-видовых отношений в рамках других частей речи остаётся всё так же актуальным.

Применение подходов, протестированных на существительных, к глагольным группам ограничивается рядом трудностей, связанных со спецификой глагольной лексики. Глаголы обладают более абстрактным значением, чем существительные, так как они обозначают не конкретные предметы, факты или явления действительности, а действия, движения, состояния, которые имеют протяженность во времени и не являются постоянными.

Глагольные единицы используются скорее для описания, характеристики, повествования, чем для называния или обозначения чего-либо. Такие наиболее общие особенности глагольной семантики позволяют предположить, что лексико-синтаксические шаблоны для установления глагольных отношений будут значительно отличаться от шаблонов для существительных.

Стоит также отметить, что отношения гипонимии проявляются в естественном языке непоследовательно и несистематично. Тогда как гипонимия существительных часто пересекается с научными классификациями, и за счёт этого гипонимы и гиперонимы могут пересекаться в контекстах, в отношении глагольной лексики это утверждение несправедливо.

Проведенный первичный анализ корпусных данных показал, что глагольные гипо-гиперонимические пары редко встречаются в ближайшем контексте в текстах, составленных на естественном языке. А в тех случаях, когда они используются рядом, они чаще всего выступают в качестве синонимов. Например, в предложении «Все шло, ехало, валило и маршировало к новому трамвайному депо, из которого ровно в час дня должен был выйти первый в Старгороде электрический трамвай» (И. Ильф, Е. Петров «Двенадцать стульев») гипероним идти и его тропоним маршировать используются в качестве контекстных синонимов. Очевидно, что при таком совместном использовании глаголов лексико-синтаксический шаблон, типичный только для отношения гипонимии не может быть выделен.

Подобным примером является предложение «Он организовывал издательства, создавал журналы, писал труды о стиховедении, переводил латинских авторов, спорил с признанными авторитетами, наставлял молодых; боялся одного — отстать от своего времени» (И Г. Эренбург «Люди, годы, жизни»), Гипероним создавать и тропоним организовывать использованы в качестве однородных членов предложения с синонимичным значением - характерный для глагольной гипонимии лексикосинтаксический шаблон из такой конструкции выделить невозможно.

Однако такой вывод, сделанный на основе анализа корпусных данных, не означает, что использование лексико-синтаксических шаблонов для извлечения гипонимических пар невозможно. Применение такого метода оправдано на базе словарных статей.

Словари, переведенные в электронный формат и имеющиеся в свободном доступе, могут выступать в качестве материла для извлечения глагольных гиперонимов и тропонимов. Однако не все словари одинаково хорошо подходят для использования метода лексико-синтаксических шаблонов. Кроме того, для каждого словаря набор лексико-синтаксических шаблонов будет отличаться, так как разные издания обладают различным синтаксисом словарных статей и дефиниций.

Словарные дефиниции для глаголов могут основываться как на синонимических, так и на родовидовых опорных словах. Такие операторы являются ключевыми словами дефиниции и позволяют более четко категоризовать толкуемое слово. Именно поэтому чаще всего дефиниции составляются на основе родового понятия в качестве базового оператора.

По мнению П.Н. Денисова, важно соблюдать принцип семантической ступенчатости описания слова: «Слова, выполняющие метаязыковую функцию в словарной статье, могут быть всего лишь на один-два семантических признака проще описываемого слова. Иначе говоря, описание некоторого слова цепочкой предельно простых в семантическом отношении слов (“элементарных смыслов”) или слова “лексической аксиологии” не является насущной необходимостью, поскольку приводит к длиннотам, тогда как описание словами, которые проще описываемого слова на один-два семантических признака, будет гораздо короче, обозримее и доступнее» [Денисов, 1993, с. 216].

Словари, включающие дефиниции, сформулированные по такому принципу, подходят для применения метода извлечения гипонимических отношений с помощью лексико-синтаксических шаблонов. Подобный принцип можно проиллюстрировать на примере Толкового словаря русских глаголов под редакцией Л.Г. Бабенко [Бабенко, 1999].

Рассмотрим ряд глаголов однонаправленного движения, ориентированного относительно исходного пункта. Выезжать (выехать) - «удаляться (удалиться) откуда-л за пределы чего-л. при помощи каких-л. средств передвижения, покидая место жительства». Ведущим оператором в дефиниции является глагол удаляться (удалиться) - он выступает в роли гиперонима для выезжать (выехать). Словарь составлен таким образом, что подавляющее большинство статей имеет единую структуру, в которой первым словом толкования является ближайший гипероним заглавного слова. Такое строение позволяет выделять родо-видовые пары, основываясь на четком алгоритме.

Для применения в выбранном словаре данного метода, лексико-синтаксический шаблон можно сформулировать следующим образом: Vlimpf(Vlpf) - V2impf (V2pf). При этом VI - тропоним, a V2 -гипероним, impf / pf- несовершенный / совершенный вид.

Такому шаблону подчиняется большинство других глаголов данной семантической группы, например:

1. Выползать (выползти) - удаляться (удалиться) откуда-л. куда-л. в определенном направлении по поверхности чего-л. движениями всего лежащего тела, либо на коротеньких ножках (о пресмыкающихся, насекомых) или припадая туловищем к этой поверхности и перебирая по ней конечностями (о человеке, животном).
2. Отлетать (отлететь) - удаляться (удалиться) откуда-л., с какого-л. места под воздействием сильного толчка, удара, рывка, броска или при каких-л. неблагоприятных обстоятельствах, двигаясь некоторое время по воздуху.
3. Удаляться (удалиться) - двигаться (двинуться) откуда-л., перемещаясь на какое-л расстояние от чего-л., отдаляясь от чего-л.

При рассмотрении группы глаголов перемещения объекта обнаруживаем необходимость введения ещё одного лексико-синтаксического шаблона для работы с данным словарем. Проанализируем следующие словарные статьи:

1. Бросать (бросить) - заставлять (заставить) что-л. перемещаться (переместиться) сверху вниз или давать (дать) возможность чему-л. падать, опускаться.
2. Толкать (толкнуть) - заставлять (заставить) кого-, что-л. перемещаться, толкая объект.
3. Отгонять (отогнать) - заставлять (заставить) кого-, что-л. перемещаться (переместиться) куда-л., удаляясь, отходят от чего-л. на некоторое расстояние.

Такая формулировка, как Vlimpf (Vlpf) - [заставлять (заставить)] Pron V2impf (V2pf) охватывает множество подобных словарных статей и позволяет выявить на их основании родо-видовые пары, где V1 - тропоним, а невозвратная форма от глагола V2 - гипероним.

Заключение

Итак, мы приходим к выводу о возможности и целесообразности использования лексикосинтаксических шаблонов при извлечении родо-видовых пар из словарных данных. Это обусловливается строгостью словарных структур и спецификой формирования дефиниций, основанных на повышении абстрактности семантики опорного слова на “один-два семантических признака”.

Несмотря на это, сформулированная в общих чертах концепция лексико-синтаксических шаблонов в рамках глагольной лексики требует значительного развития и доработок. В первую очередь, это связано с адаптацией лексико-синтаксических шаблонов к каждому словарю. Вторая проблема заключается в специфике составления словарей - не каждый словарь представляет лексику в таком виде, который бы подошёл для применения подобного метода, так как дефиниции могут быть составлены через излишне абстрактные понятия или через синонимы.

Данные, получаемые с помощью такого метода, должны быть проверены человеком с целью оценки качества извлекаемых родо-видовых пар.

Отдельная проблема заключается в дальнейшем соединении родо-видовых пар в целые иерархические цепочки. Препятствием на пути к достижению этой цели является многозначность лексических единиц и сложности выделения гипонимических отношений на более абстрактных семантических уровнях. К чисто техническим сложностям построения родо-видовых пар таким способом относится автоматизация процесса путем написания соответствующего программного обеспечения. Однако дальнейшая разработка данного способа представляется необходимой, так как такой метод уже зарекомендовал себя при применении к другим частям речи и может показать высокую эффективность при обработке глагольной лексики.

Список литературы Использование лексико-синтаксических шаблонов для формализации родо-видовых отношений в толковом словаре

Fellbaum Ch. (ed.) WordNet - An Electronic Lexical Database. Massachusetts: MIT Press, 1998. 423 p.
Hearst M.A. Automatic Acquisition of Hyponyms from Large Text Corpora // Proceedings of the 14th conference on Computational linguistics. V. 2, Nantes, France, Association for Computational Linguistics, Morristown, NJ, USA, 1992. P. 539-545.
Hearst M.A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998. P. 132-152.
Miller, G. et al. Five Papers on WordNet. Princeton University: Cognitive. Science Laboratory, 1993. URL: http://wordnetcode.princeton.edu/5papers.pdf (accessed 05.07.2017).
Snow, R., Jurafsky, D., Ng, A. Learning syntactic patterns for automatic hypernym discovery. In Proceedings of Advanced in Neural Information Processing systems. Vancouver, British Columbia: 2004. P. 1297-1304.