О методах оценки сочетаемости слов в моделях семантического предпочтения
Автор: Петрова Наталья Петровна
Журнал: Инженерные технологии и системы @vestnik-mrsu
Рубрика: Прикладная математика
Статья в выпуске: 4, 2010 года.
Бесплатный доступ
В статье охарактеризованы структура и особенности моделей семантического предпочтения. Рассмотрены методы оценки сочетаемости слов русского языка на основе эвристически определяемых числовых показателей. Указанные методы могут быть использованы при изучении лингвистических моделей и при решении прикладных задач компьютерной лингвистики.
Короткий адрес: https://sciup.org/14719594
IDR: 14719594
Текст научной статьи О методах оценки сочетаемости слов в моделях семантического предпочтения
В статье охарактеризованы структура и особенности моделей семантического предпочтения. Рассмотрены методы оценки сочетаемости слов русского языка на основе эвристически определяемых числовых показателей. Указанные методы могут быть использованы при изучении лингвистических моделей и при решении прикладных задач компьютерной лингвистики.
Как известно [1; 3-6], в математической лингвистике различают модели, которые воспроизводят построение, или порождение, текста, и модели, которые воспроизводят восприятие текста. Модели первого рода называют порождающими, модели второго рода - анализирующими, или аналитически ми. Оба эти типа моделей можно объединить в один класс функциональных моделей речевой деятельности.
Под порождением текста понимается воплощение в данном тексте некоторого смысла посредством перехода «смысл -> текст». Восприятие текста - это извлечение опреде-
лепного смысла из данного текста, или переход «текст —> смысл». Соответственно модели речевой деятельности должны устанавливать соотношение «смысл ^ текст». Порождающая и аналитическая модели воспроизводят каждая одну из сторон речевой деятельности, взятые вместе они отражают речевую деятельность в целом [1].
Модели речевой деятельности - не единственно возможный тип лингвистических моделей. Для того чтобы осуществлялась речевая деятельность, необходимо наличие языковой системы, создаваемой посредством моделирования.
О свойствах системы возможно судить по результатам ее функционирования, прежде всего тексту, по его характеристикам. Поэтому моделирование системы языка отражает переход «текст —> языковая система». Этот тип модели можно назвать исследовательским, так как здесь представлена прежде всего деятельность исследователя-лингвиста по выяснению системы языка.
Вопросы построения и классификации лингвистических моделей, а также особенности разработки языков представления знаний рассмотрены в [7-8] и др. работах.
К моделям типа «смысл - текст», представляющим наибольший практический интерес, относятся следующие модели: модель семантического предпочтения (preference semantics) (Уилкс); модель концептуальной зависимости (conceptual dependency) (Шенк); модель Жолковского «смысл - текст».
При разработке модели семантического предпочтения (модели СП) ставятся задачи:
-
1) анализировать связные тексты, а не отдельные предложения;
-
2) принимать для анализа любые осмысленные предложения, а не только грамматически правильные;
-
3) формализовать семантический анализ;
-
4) разработать машинно-ориентированную процедуру анализа;
-
5) рассматривать смысл предложения не просто как список значений слов с соответствующей синтаксической структурой, а выделять структурированную форму сообщения, выражающую смысл предложения;
-
6) уметь обрабатывать предложения, содержащие неизвестные слова.
При построении модели СП предполагается, что текст характеризуется следующими сущностями: смыслами слов (words-senses), сообщениями (message-form), фрагментами текста (text-fragments) и семантической совместимостью (= сочетаемостью) (semantic compatibility). Сообщения рассматриваются как теоретические построения, посредством которых для каждого слова, входящего во фрагмент текста, может быть выбран один из смыслов слова (т. е. снята многозначность). Слову назначается тот из его многих смыслов (значений), который образует «сообщение», согласующееся в конце концов с рассматриваемым фрагментом текста. При этом имеется в виду, что данное значение слова может подойти для нескольких сообщений, но выбирается то из них, которое согласуется с рассматриваемым текстом. Согласующимися считаются те сообщения, которые удовлетворяют правилам семантической совместимости, применяющимся к целому тексту.
Модель СП базируется на следующих положениях: существует конечное число всевозможных сообщений; существует формальный способ выражения сообщений; существует формальный метод объединения сообщений во фрагмент текста.
Для выражения сущностей, выделяемых моделью СП в тексте, вводятся следующие понятия: «семантическая формула» для представления смысла слова; «образец» для представления сообщения; «правила следования» для выражения правил семантической совместимости сообщений.
Важную роль при построении и использовании моделей СП играет проблема сочетаемости слов. Как известно, в формальных искусственных языках программирования правила комбинирования языковых знаков формулируются исключительно исходя из их смыслового содержания.
Особенностью естественных языков является нестандартная сочетаемость знаков на разных языковых уровнях, при которой ВОЗМОЖНОСТЬ их комбинирования определяется не только их смыслом. Нестандартность лек- сической сочетаемости означает, что один слова допускают совместное употребление, а другие, пусть даже с тем же смыслом, - нет.
Лексическая сочетаемость слов частично представлена в словарях словосочетаний; в основном словари описывают сравнительно немногочисленные фразеологические (несвободные) словосочетания, смысл которых не выводится из смысла ело в-компонентов. Задача отображения всех устойчиво сочетающихся слов, включая свободные сочетания, ими не решается. В то же время определение семантической допустимости различных сочетаний слов необходимо для решения ряда задач компьютерной лингвистики. В число указанных задач входят следующие задачи:
-
(А) автоматическая генерация текстов на естественном языке (использование устойчивых словосочетаний дает возможность получать идиоматичные тексты);
-
(В) синтаксический разбор предложений текста (учет допустимых в речи словосочетаний позволяет сократить число возможных вариантов разбора);
-
(С) автоматизация редактирования текстов (знание допустимых словосочетаний дает возможность выявлять некоторые виды лексико-семантических ошибок).
Основным источником словосочетаний и средством определения их допустимости в речи являются тексты на естественном языке. Для автоматизированного построения словарей словосочетаний могут применяться так называемые корпуса текстов - коллекции текстов, в которых лингвистами предварительно проведена морфосинтаксическая разметка слов. Однако создание представительного размеченного корпуса текстов - сама по себе длительная и кропотливая задача, поэтому в компьютерной лингвистике все более широко используется Интернет, рассматриваемый как огромный зашумленный текстовый корпус современного языка [2].
Рассмотрим метод оценки сочетаемости слов русского языка, который опирается па понятие коллокации, близкое к широко используемому в русистике понятию словосочетания. Под словосочетанием понимается соединение нескольких знаменательных слов на основе подчинительной грамматической свя зи (чаще всего связи согласования и управления). Такое определение не накладывает никаких ограничений на семантику сочетаемых слов. При использовании коллокаций рассматриваются только словосочетания, которые встречаются в осмысленных текстах, и тем самым считаем коллокацией любую синтаксически связанную и семантически допустимую пару знаменательных слов.
Компонентами коллокаций могут быть слова четырех главных частей речи: существительные, глаголы, прилагательные (включая причастия) и наречия (включая деепричастия). Наиболее часто встречаются следующие четыре синтаксических типа коллокаций:
-
1) определяемое слово —> определяющее слово;
-
2) существительное —> его дополнение;
-
3) глагол —> его дополнение;
-
4) сказуемое ~» подлежащее.
Как показал анализ, большинство существующих в русском языке именных и глагольно-именных словосочетаний охватываются указанными типами коллокаций.
Синтаксические связи между знаменательными словами коллокаций могут реализоваться непосредственно (например, обнаружил изъяны) или через служебные слова (обычно через предлоги: учиться в университете) 7 в последнем случае мы считаем эти служебные слова частью коллокаций.
Заметим, что в предложениях связного текста слова-компоненты коллокаций могут либо непосредственно соседствовать, либо разделяться другими словами, причем не только собственными служебными словами: учиться в недавно построенной школе. В то же время эти слова-компоненты могут случайно оказаться рядом, не образуя коллокацию из-за отсутствия синтаксической связи: не любил учиться, в школе было неинтересно. Если же рассматриваются тексты сети Интернет, то в них в дополнение к таким встречам существуют многочисленные ошибки в употреблении словосочетаний и ошибки, вызванные некорректной разметкой страниц. Поскольку исследовать синтаксические связи во всех текстах сети Интернет не представляется возможным, для определения допусти- мости словосочетаний применимы только статистические критерии [2].
Один из известных статистических критериев, применяемых в корпусной лингвистике, основан на так называемом показателе взаимной информации (ПВИ):
ПВИ(У РУ) = In 5 " ■
Согласно критерию, основанному на формуле (1), пара слов (У, РУ) образует устойчивое сочетание, если относительная частота N У,W^ S совместной встречи слов на близком расстоянии в пределах всего текстового корпуса больше произведения относительных частот N(y)/S и N(W)/S слов У и W\ рассматриваемых по отдельности (5 - размер корпуса):
ПВИ(У, РУ) > 0.
Указанный критерий неприменим в случае интермет-корпуса, поскольку, во-первых, поисковые машины измеряют статистику встреч запрашиваемого слова (или комбинации слов) только в количестве содержащих эти слова страниц, а во-вторых, размер интернет-корпуса (понимаемый как полное число страниц, индексируемых поисковой машиной) - сложно вычисляемая величина. В работе [2] авторы решили использовать в качестве меры устойчивости и допустимости сочетания слов величину, сходную с ПВИ:
ПСС(У, РУ) = In , (2)
где Р - некоторая положительная константа. Величина (2), названная показателем семантической совместимости (ПСС), придает большее, чем ПВИ, значение совместной встречаемости слов. В то же время, как и ПВИ, ПСС сохраняет свое значение при пропорциональном изменении величин ^(У), 1¥(РУ) и А(У, W) и тем самым практически не зависит от непрерывного роста массивов данных поисковой машины во времени.
Как показано в [2], для практического применения ПСС удобно взять основание логарифма равным 2 и подобрать константу Р так, чтобы большинство устойчивых коллокаций любого синтаксического типа имели неотрицательное значение ПСС. Таким образом, уточненная формула для ПСС имеет вид
16 +10g2 j^” ,
62 X/JV(V).N(WZ)’
ПСС(У, РУ) = <
если N(V, W) > 0
—ОО, если ЛГ(У,РУ) = 0,
где —оо соответствует большей по абсолютной величине отрицательной константе, которая берется в случаях, когда оцениваемые слова вообще не встречаются вместе в изучаемых массивах.
С учетом формулы (3) критерий семантической совместимости пары слов ^(У, РУ) примет вид
ПСС(У, РУ) > Q, где Q - константа, близкая к нулю и подбираемая экспериментально.
Описанную методику, базирующуюся на эвристически введештых показателях семантической совместимости (ПСС), целесообразно использовать для решения задач (А), (В), (С) и для исследования миделей семантического предпочтения.
Список литературы О методах оценки сочетаемости слов в моделях семантического предпочтения
- Апресян Ю. Д. Идеи и методы современной структурной лингвистики/Ю. Д. Апресян. -М.: Наука, 1966. -280 с.
- Большакова Е. И. Метод оценки сочетаемости слов на базе текстов сети Интернет/Е. И. Большакова, А. П. Котляров//Вестн. Москов. ун-та. -Сер. 15, вычисл. математика и кибернетика. -2008. -№ 4. -С. 46-60.
- Гладкий А. В. Формальные грамматики и языки/А. В. Гладкий. -М.: Наука, 1973. -368 с.
- Вежбицкая А. Семантические универсалии и описание языков/А. Вежбицкая. -М.: Наука, 1999. -780 с.
- Касевич В. Б. Элементы общей лингвистики/В. Б. Касевич. -М.: Наука, 1977. -177 с.
- Мельчук И. А. Толково-комбинаторный словарь современного русского языка. Опыты семан-тико-синтаксического описания русской лексики/И. А. Мельчук, А. К. Жолковский. -Wien: Wiener Slawistischer Almanach, 1984.
- Петрова H. П. О построении и классификации лингвистических моделей, используемых при разработке систем искусственного интеллекта/Н. П. Петрова//Избр. вопр. соврем, естествознания. Сб. науч. тр. -М.: МИИТ, 2009. -С. 157-163.
- Петрова Н. П. Сравнительный анализ математических моделей лингвистики и особенности разработки языков представления знаний/Н. П. Петрова//Материалы XII науч. конф. МГТУ «Станкин» и «Учебно-научного центра математического моделирования МГТУ ’’Станкин” -ИММ РАН» по математическому моделированию и информатике. -М.: МГТУ «Станкин», 2009. -С. 143-146.