Построение фреймовой модели перевода с использованием кластеризации термов

Автор: Полянский Константин Владимирович

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 3 (36), 2011 года.

Бесплатный доступ

Рассмотрена фреймовая модель представления знаний в IP-системах машинного перевода. Предложен алгоритм сегментации исходного и целевого текста через связь. Проанализированы различные методы кластеризации термов, определены наиболее эффективные из них для разбиения текста на кластеры

Машинный перевод, сегментация текста, кластеризация термов, фреймовая модель

Короткий адрес: https://sciup.org/148176621

IDR: 148176621

Текст научной статьи Построение фреймовой модели перевода с использованием кластеризации термов

Важным этапом в IP-переводе (машинном переводе, использующем ресурсы информационно-поисковых систем) на стадии синтеза является сопоставление исходного текста (ИЯ-текста) и релевантных текстов на целевом языке (ЦЯ-текстов), выявление в них схожих сегментов. Процесс такого сопоставления выполняется в несколько шагов:

  • 1)    сегментация текста;

  • 2)    кластеризация сегментов;

  • 3)    построение фреймовой модели структуры текста.

Рассмотрим каждый шаг подробнее.

Сегментация текста. Для анализа структуры предложений ИЯ- и ЦЯ-текстов необходимо поделить эти предложения на логические сегменты, где каждый сегмент будет семантически самостоятельной единицей. Сегментом назовем непрерывный фрагмент тек- ста, состоящего из термов одного языка, обозначающих связанную по некоторому критерию группу понятий. Составными частями сегмента могут быть термы следующих видов:

  • -    объект ( obj );

  • -    субъект ( sub );

  • -    действие ( do );

  • -    свойство (pro );

  • -    связь ( con ).

Идентификация составных частей сегмента осуществляется после проведения стемминга, когда установлена принадлежность термов к тем или иным частям речи. Определяется, что объект ( obj ) и субъект ( sub ) являются существительными, действие ( do ) -глаголом, свойство (pro ) - прилагательным, а связь ( con ) включает в себя все знаки пунктуации, предлоги, союзы и частицы.

Выделение сегментов можно производить несколькими методами. Рассмотрим наиболее эффективный метод сегментации - сегментацию через связь ( con ). В основе данного метода лежит предположение о том, что семантические скопления термов в ИЯ- и ЦЯ-предложениях отделены друг от друга связями ( con ) - знаками препинания, предлогами, союзами и частицами [1].

Таким образом, при каждом возникновении связи ( con ) происходит трансформация семантической структуры, возникает новый сегмент текста, несущий новую семантику. Следовательно, для осуществления сегментации текста необходимым и достаточным является наличие словаря служебных частей речи и словаря знаков препинания. Механизм сегментации через связь ( con ) для фрагмента предложения « The goal of integrating syntactic information into translation model... » приведен на рис. 1.

вид:

Рис. 1. Сегментация через связь ( con )

Кластеризация. Для управления полученными сегментами применяется фреймовая модель представления знаний, где каждый терм сегмента описывается соответствующим фреймом. Однако для формирования такой модели предварительно необходимо сгруппировать имеющиеся в сегментах термы в кластеры -группы термов со схожими свойствами. Рассмотрим несколько алгоритмов кластеризации.

Для каждого вида термов (obj, sub, pro, do, con) определен ряд характеризующих их признаков. Так, для термов obj, sub и pro такими признаками являются «род», «число» и «падеж», для термов do - это «время», «вид» и «залог», а для термов con отличительными признаками являются свойства «предлог», «союз» и «пунктуация». Каждый из этих признаков, в зависимости от типа терма, принимает определенные значения. Например, свойство «род» может принимать одно из трех значений [мужской, женский, средний], а свойство «вид» - всего два значения [совершенный, несовершенный] и т. д. Данные значения берутся в качестве критериев кластеризации - деления на группы в зависимости от принимаемых значений. Для формализации значений термов сопоставим каждому значению числовую меру. Так, например, значениям [мужской, женский, средний] сопоставим значения [1, 2, 3], а значениям [совершенный, несовершенный] - значения [1, 2] и т. д. Таким образом, данные числовые значения играют роль расстояний между свойствами термов. Функция расстояния между двумя свойствами xt и xj записывается как L(Xj, xj) и обладает следующими признаками.

Неотрицательность расстояния:

L(X,xj) ^ 0.(1)

Симметрия:

L (X, X) = 0.(2)

Неразличимость тождественных свойств:

L(X, xj) = L(xj, x).

Неравенство треугольника:

L(x,Xj) < L(x,xk) + L(xk,Xj).(4)

Если все свойства термов x , , x 2,..., xn представить в виде матрицы данных X размером p х n

X 11

X 12

x 7

... x n

X

X 21

X 22

... X 2 n

= ( x 1 , x 2,.„, x n ),    (5)

X , Л' п p 1 p ^

то расстояния L(x,, x,) могут быть представлены в виде матрицы расстояний, имеющей симметричный

Чем больше мера L ( x , , x , ), тем больше отличие в свойствах термов, а, следовательно, возрастает и вероятность принадлежности термов к разным кластерам. И наоборот, чем меньше значение L ( x , , x , ), тем больше вероятность того, что термы принадлежат одному кластеру.

Расстояние L ( x , , x , ) может быть вычислено несколькими способами.

Общая формула геометрического расстояния в многомерном пространстве, т. е. расстояния Минковского, определяется по формуле

L p ( x , x j ) =| Ё| x k , , x k , , Г I ,             (7)

V к = 1                 )

где d - размерность пространства; p - количество значений, принимаемое признаками.

Частным случаем геометрического расстояния между несколькими значениями свойств того или иного терма является евклидово расстояние. Его формула приведена ниже:

Г d                 2 1 1/2

L 2 ( X, x j ) = Z ( xM - x k , j )      .

Следующий тип расстояния – манхэттенское (сити-блок, хэмминговское) расстояние:

d

L i ( x . x j ) = E K - - x k j .            (9)

k = 1

Однако манхэттенское расстояние обычно применяют при наличии дихотомических свойств (свойств, имеющих два значения). А так как некоторые свойства термов могут принимать более чем два значения, то такой тип расстояния является непригодным для кластеризации термов ИЯ- и ЦЯ-текстов.

Еще одним типом расстояния является супремум-норма (расстояние Чебышева):

  • L ( X , x j ) = suP {| x k .I" x k,j } .              (10)

Анализ рассмотренных типов расстояния показал, что для задачи кластеризации сегментов ИЯ- и ЦЯ-текстов пригодными являются расстояние Чебышева и евклидово расстояние [2].

Построение фреймовой модели структуры текста. После того как исходный и целевые тексты разбиты на сегменты и проведена кластеризация термов для всех сегментов, строится фреймовая модель пред- ставления полученной структуры (см. таблицу). Для каждого вида термов – obj, sub, pro, do, con – определяется одноименный вид фрейма, хранящий информацию о свойствах связанного с ним терма.

Структура фреймов, используемых при построении шаблонов

Имя фрейма

Идентификатор, присваиваемый фрейму, уникальный в данной фреймовой системе ( obj , sub , pro , do , con )

Слоты

Свойства фрейма, принимающие значения из некоторого диапазона

Демоны

Автоматически запускаемые процедуры. Выполняются при осуществлении каких-либо действий над слотом:

IF-NEEDED – указывает, какое действие необходимо выполнить если значение вставляется в пустой слот.

IF-ADDED – указывает, какое действие необходимо выполнить при добавлении в слот значения.

IF-REMOVED – указывает, какое действие необходимо выполнить при удалении значения из слота

Все свойства термов хранятся в слотах фрейма и имеют строковый тип данных. Так, например, для фрейма do , описывающего термы-глаголы определено три слота: время, вид и залог. При обработке терма-глагола формируется экземпляр фрейма do , а свойства терма записываются в слоты. Результат записи может выглядеть следующим образом: время – прошедшее, вид – несовершенный, залог – активный.

Рис. 2. Фреймовое представление знаний

Описание структуры фрейма. Сразу после добавления свойств терма в слоты соответствующих фреймов происходит вызов демона IF-ADDED , запуск которого осуществляется при каждой очередной вставке значения в тот или иной слот. Демон IF-ADDED , в зависимости от того, каким фреймом он был вызван, вызывает соответствующую процедуру приведения значения свойства терма, хранящегося в слоте к форме на целевом языке.

Так, например, при вставке в слот «число» значения «множественное» демон IF-ADDED вызовет процедуру преобразования формы терма из множественного числа исходного языка к множественному числу целевого языка. Для этого преобразующая процедура обращается к имеющемуся в системе словарю окончаний для пары «ИЯ–ЦЯ». Таким образом, формируется база знаний на основе фреймового представления (рис. 2), хранящая информацию о структуре сегментов текста и термов, образующих эти сегменты.

Данная модель пригодна для осуществления сопоставления исходного и целевых текстов на этапе синтеза ЦЯ-текста в IP-системе машинного перевода, а также для выполнения посегментного перевода фраз ИЯ-текста в фразы ЦЯ-текста.

Рассмотренная фреймовая модель является эффективным средством представления знаний в IP-системе машинного перевода на этапе синтеза текста, так как позволяет управлять формой термов при переходе от исходного языка к целевому, является менее громоздкой, чем представление через нейронную сеть, и более гибкой, чем продукционное представление. Приведенный алгоритм сегментации текста через связь позволяет быстро и эффективно производить разбиение текстового массива на фрагменты, что ускоряет процесс их анализа.

Статья научная