Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем

Автор: Карасева Маргарита Владимировна, Селиванова Марина Анатольевна, Зеленков Павел Викторович, Шукшина Екатерина Евгеньевна

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 3 (24), 2009 года.

Бесплатный доступ

Предложена модификация существующих моделей распределенных информационных систем, основанных на тезаурусах. Модификация направлена на решение проблемы мультилингвистичности представления информации в современных системах. Показаны две модели: первая основана на мультилингвистическом тезаурусе, вторая - на частотном мультилингвистическом тезаурусе.

Мультилингвистическая модель, тезаурус, частотный словарь

Короткий адрес: https://sciup.org/148175997

IDR: 148175997   |   УДК: 681.5

The use of thesauruses for building multilingual models of the distributed informational systems

The paper offers the modification of the existed models of the distributed informational systems based on thesauruses. The modification is aimed at problems of multilingual informational presentation in modern systems solutions. Two models are shown: the first one is based on multilingual thesauruses, the second one is based on frequency multilingual thesauruses.

Текст научной статьи Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем

В настоящее время разработано множество моделей для представления распределенных систем вычисления и (или) обработки информации. К ним, в частности, относятся информационные системы, корпоративные информационные системы и интенсивно развивающиеся системы поддержки принятия решения [1]. Однако большинство моделей распределенных систем строятся на основе одноязычного представления информации или учитывают многоязычие неявно [2].

Одним из перспективных направлений при разработке новых моделей является применение словарей, или тезаурусов. При этом необходимо отметить, что в современных системах подобные словари очень редко встречаются представленными в мультилингвистической реализации.

Авторский подход, отраженный в работах [2; 3], направлен в первую очередь на решение проблемы муль-тилингвистического представления информации в инфор- мационно-управляющих системах, поскольку в современных условиях даже небольшие корпоративные информационные системы, как правило, работают в мультилинг-вистическом режиме.

Рассмотрим следующее определение мультилингви-стического тезауруса Т слов Т у , сформированное на базе положений, представленных в работе [4], где I - языковое множество, а j - терм в языковом множестве, отвечающие следующим условиям:

  • 1)    имеется непустое подмножество Т . с T , называемое множеством дескрипторов ;

  • 2)    имеется симметричное, транзитивное рефлексивное отношение R с T х T , такое что

  • tii * ti2 л tiiRti2 fi (tii e To)v (ti2 e To),

При этом отношение R называется синонимическим отношением , а слова t 1, t 2, отвечающие этому отношению, - синонимическими дескрипторами ;

  • 3)    имеется транзитивное и несимметричное отношение K с Т 0 х T 0, называемое обобщающим отношением .

В случае если два дескриптора t i 1, t i 2 удовлетворяют отношению t . 1 Kt. 2, то полагается, что дескриптор t . 1 более общий, чем дескриптор ti 2.

Элементы множества Т \ Т 0 называются множеством аскрипторов .

Таким образом, информационную систему с применением тезауруса можно представить в виде четверки ( Т , D i , M i , 5 ), где Т - мультилингвистический тезаурус с дескрипторным множеством Т 0; D. - коллекция разноязычных документов; М. - множество разноязычных вопросов; 5 : ^ 2 D - отображение, сопоставляющее каждому независимому от языковой принадлежности вопросу множество разноязычных документов.

Пусть описание любого документа d e D может быть представлено в виде

t(d) = {ti, ta, -, t»} и удовлетворяет условию: никакие два дескриптора не встречаются в одном ti(d,), если они удовлетворяют отношению K.

Можно также считать, что каждый вопрос m i e M представляется в форме, аналогичной описанию разноязычных документов.

Множество описаний вопросов и документов частично упорядочено отношением включения ( < ) следующим образом:

V d ii ,d ,2 e D i , t i ( d i 2) <  t i ( d i. 2) о (V t‘ e t i ( d 1))х х(3 t ‘e t(d .2 ))(t‘Kt . )v( t , ‘- t , ).

т е. каждый дескриптор из t (d i л) представляет собой обобщение дескриптора из t i. ( d i 2) или идентичен дескриптору из t ( d 2).

Отношение позволяет сформулировать ответ Q на вопрос m e М в виде

Q = 5( m , ) = { d i : d i e D i л m i t i ( d i )}.

Пусть S p..., S n - локальные информационные системы, где S = ( T j , D j , M .. , 5 j ), j = 1, ..., n . Объединим системы

Sp .. ., Sn в одну систему S , которую в дальнейшем будем называть распределенной информационной системой , базирующейся на глобальном тезаурусе T = U T j .

Итак, пусть у нас имеется распределенная информационная система S = ( Т , D , , М , 5 ) с синонимическим отношением R и обобщающим отношением K . Тогда последовательность информационных систем можно определить следующим образом:

Sj= (Tj, Dj, Mj, 5j), где Tj e T, Dy e Di, My e Mi; 5. - сужение 5 на Mj; Vj = 1,n . Кроме того, отношения Rj = R n (Tj х Tj) и K j K n (Toj х TOj), где TOj - множество дескрипторов системы Sj.

Необходимо отметить, что множества T j и D у могут пересекаться.

Также покажем возможность существования подсистемы, которая позволяет формализовать отношение предпочтения одной системы перед другой.

Пусть S 1 = ( T 1 , D ,1 , M ,1 ,5 1 ) и S 2 = ( T 2, D ,2 , M ,2 ,5 2 ) -информационные системы. Система S 1 является подсистемой S 2 ( S 1 с S 2), если:

  • 1)    ( T с T 2 ) л ( K 1 = K 2 n ( T o1 х T o1 )) л ( R 1 = R 2 n ( T 1 х T 1 ));

  • 2)    Dn с Da;

  • 3)    ( M ,1 с M ,2 ) л < 1 = < 2 ( M n х M n));

  • 4)    51 ( m i ) = 52 ( m i ) n D , 1, m , e Mг 1.

Очевидно, что локальные информационные системы являются подсистемам распределенной информационной системы.

Ввиду того что множество разноязычных документов, например, в распределенной системе поддержки принятия решения является объединением множеств разноязычных документов локальных информационных систем, ответ на вопрос к распределенной системе можно выразить как результат некоторых операций над ответами от локальных систем.

Пусть m i = { m i } - вопрос, содержащий один дескриптор, а 5( m i ) - ответ на вопрос m i . В подсистеме S ответ на локальный вопрос m i = { m i } согласно описывается следующим образом:

5 j ( m , ) = { d , : d , e D у л m , yt , ( d , )}.

В свою очередь в распределенной системе S глобальный ответ на вопрос m , = { m ,}_ будет объединением локальных ответов 5( m , ) = U 5 j ( m , ).

Ответ на произвольный вопрос m , = { mn ,..., m k } для любого языкового множества в распределенной системе выражается формулой

k

  • 5(    m , ) = 1 5( m i ), m ,i = { m l } .

1 =1

В [4] показана справедливость этой формулы и ее согласованность с определением последовательности информационных систем в рамках произвольного языкового множества , однако необходимо отметить, что данная формула может быть модифицирована и для случая, когда имеется произвольное количество языковых множеств.

Итак, распределенная информационная система обладает свойством включения, если множество вопросов частично упорядочено отношением и выполняется условие

{ m ii , m i2 } c M i л m ii m 12 fi 6( m ii ) з 6( m 12 ) .

Свойство включения позволяет формулировать цепь ответов на цепь вопросов, уточняя ответы более специализированными вопросами.

При реализации систем поддержки принятия решений находит место и более интересная модель распределенной системы, основанная на частотных мультилинг-вистических тезаурусах.

Для работы с обобщенной распределенной мульти-лингвистической информационной системой, а также для работы с мультилингвистическими системами поддержки принятия решений, вводятся веса, которые будут описывать информационное содержание терма в каждом языковом множестве [4].

Покажем работу предлагаемой модели для произвольного языка j (количество языков в обработке зависит от имеющегося мультилингвитического словаря и представленного в нем языкового многообразия) [5]. Вес w j соответствует объему информации, относящейся к дискрип-тору t j , т. е. j d j ) = { < t j w: . < t j w 2>, ^, < t j w>} и выполняются условия:

  • 1)    t ji * tqj Л t j Kt qj fi ( V w j 6 [0,1])( j w j ) 6 j d j ) v ( V w q 6 e [0,i])( jw^ 6 t j ( d j );

k

  • 2)    S w j = 1.

i= 1

Описание мультилингвистических документов также удовлетворяет свойству включения. Дадим определение подобия вопросов и описаний документов.

Пусть t . ( d 1 . ), t . ( d 2 j ) - описания мультилигвистических документов. представленных в j -м языковом множестве:

j d i j ) = {< t iij ,w iXj > ,

  • < t i2 j , w j >  ,..., < t 1 kj w i >}, t ( d у) = {< t2Ц,w 2ij >,< t 22j ’ w 22 j >  ,..., < t 2 k 2 j , w 2 k 2 j >}.

Описание tj(di j) подобно описанию tj(d2j) с точностью p(0 < p < i), если tj( dij) < jd 2j) л V wXij p < S w j

< t i j , w ij >6 1 ( d i j ) q :[ t 2 q 6 I ( t i q )]

где I j ( t i ij ) = { t 2 q : t i ij Kt 2qj л i <  q k 2 } при i i k i . Если t . ( d i j ) и t . ( d 2 j ) удовлетворяют этому условию, то пишется j d i j < / j d

Отношения подобия, доказательство которых очевидно, также можно представить в мультилингвистическом виде:

  • -     если     ( j d v) <  j d j , )) л (p i > p 2 ),    то

j di j )

2

Md 2 2 );

  • -    если ( t j ( d у ) < p i t j ( d 2 j )) л ( t j ( d2 j ) < p 2 t j ( d з , )) , то j d i j ) < p t j ( d 3 j), (p < p i p 2 ).

Представляет интерес величина, характеризующая коэффициент подобия, или меру корреляции пар муль-тилингвистических векторов, удовлетворяющих отношению < .

Для векторов tj ( d i j ), tj ( d 2 j ), таких что tj ( d i j ) tj ( d 2 j ), мера корреляции будет

Ц ( t j ( d у), t j ( d 2 j )) =

  • = S       m in( w iij ,    S    w 2 qj)’

i :( tiij w i j ) 6 tj ( d i j )                 q :[ t 2 q 6 I ( t i qi )]

где I ( t i j ) = { 1 2 sj t i ij Kt 2 Sj л i <  s k 2 } при У i k i .

Мера ц фактически оценивает пересекающуюся информацию, заключенную в описании документов t ( d у j ), t ( d 2 j ).

Таким образом, распределенная мультилингвистичес-кая информационная система на тезаурусе с весами представляется четверкой ( T , D j , M j , 5 ), где T - тезаурус с деск-риптовым множеством T 0 c T ; 6: M j x [0,i] ^ 2 D j x [0'i] , сопоставляющей каждой паре (вопрос, точность подобия) множество пар (документ, мера корреляции).

Ответом системы на вопрос m j с требуемой точностью p = c называется множество

Q = 6( m j , c ) =

( d j ,а): d j 6 D j лm j < c t j ( d j )ла =

_= p( m j , t j ( d j ))

> c

c D j x[0,i].

В определении ответа N = 6( m j , c ) отношение подобия <  c осуществляет выбор мультилингвистических документов, точность подобия которых не менее c . Мера корреляции p( m j ., t j . ( d j )) показывает, какая часть информации в документе соответствует ответу на вопрос.

В заключение рассмотрим одно из фундаментальных свойств ответа, связанное с точностью p и мерой корреляции ц вопроса к описанию мультилингвистических документов, включенных в ответ. Покажем его следующим образом: если документ d j 6 D^ с мерой корреляции а включен в ответ, т. е. ( d j ,а) е 6( m j , c ), то верно неравенство а >  c . Обратное утверждение неверно. Также необходимо отметить, что если р у > p 2, то 6( m j ,pi) c 6( m j ,p2).

Таким образом, по сравнению с исходными моделями распределенных информационных систем [6; 7] представленные мультилигвистические модели позволяют составлять мультилингвистические ответы даже на одноязычные запросы более гибко и с учетом неопределенности описания как мультилингвистических документов, так и самих запросов [8].