Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем

Автор: Карасева Маргарита Владимировна, Селиванова Марина Анатольевна, Зеленков Павел Викторович, Шукшина Екатерина Евгеньевна

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 3 (24), 2009 года.

Бесплатный доступ

Предложена модификация существующих моделей распределенных информационных систем, основанных на тезаурусах. Модификация направлена на решение проблемы мультилингвистичности представления информации в современных системах. Показаны две модели: первая основана на мультилингвистическом тезаурусе, вторая - на частотном мультилингвистическом тезаурусе.

Мультилингвистическая модель, тезаурус, частотный словарь

Короткий адрес: https://sciup.org/148175997

IDR: 148175997

Текст научной статьи Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем

В настоящее время разработано множество моделей для представления распределенных систем вычисления и (или) обработки информации. К ним, в частности, относятся информационные системы, корпоративные информационные системы и интенсивно развивающиеся системы поддержки принятия решения [1]. Однако большинство моделей распределенных систем строятся на основе одноязычного представления информации или учитывают многоязычие неявно [2].

Одним из перспективных направлений при разработке новых моделей является применение словарей, или тезаурусов. При этом необходимо отметить, что в современных системах подобные словари очень редко встречаются представленными в мультилингвистической реализации.

Авторский подход, отраженный в работах [2; 3], направлен в первую очередь на решение проблемы муль-тилингвистического представления информации в инфор- мационно-управляющих системах, поскольку в современных условиях даже небольшие корпоративные информационные системы, как правило, работают в мультилинг-вистическом режиме.

Рассмотрим следующее определение мультилингви-стического тезауруса Т слов Т у , сформированное на базе положений, представленных в работе [4], где I - языковое множество, а j - терм в языковом множестве, отвечающие следующим условиям:

  • 1)    имеется непустое подмножество Т . с T , называемое множеством дескрипторов ;

  • 2)    имеется симметричное, транзитивное рефлексивное отношение R с T х T , такое что

  • tii * ti2 л tiiRti2 fi (tii e To)v (ti2 e To),

При этом отношение R называется синонимическим отношением , а слова t 1, t 2, отвечающие этому отношению, - синонимическими дескрипторами ;

  • 3)    имеется транзитивное и несимметричное отношение K с Т 0 х T 0, называемое обобщающим отношением .

В случае если два дескриптора t i 1, t i 2 удовлетворяют отношению t . 1 Kt. 2, то полагается, что дескриптор t . 1 более общий, чем дескриптор ti 2.

Элементы множества Т \ Т 0 называются множеством аскрипторов .

Таким образом, информационную систему с применением тезауруса можно представить в виде четверки ( Т , D i , M i , 5 ), где Т - мультилингвистический тезаурус с дескрипторным множеством Т 0; D. - коллекция разноязычных документов; М. - множество разноязычных вопросов; 5 : ^ 2 D - отображение, сопоставляющее каждому независимому от языковой принадлежности вопросу множество разноязычных документов.

Пусть описание любого документа d e D может быть представлено в виде

t(d) = {ti, ta, -, t»} и удовлетворяет условию: никакие два дескриптора не встречаются в одном ti(d,), если они удовлетворяют отношению K.

Можно также считать, что каждый вопрос m i e M представляется в форме, аналогичной описанию разноязычных документов.

Множество описаний вопросов и документов частично упорядочено отношением включения ( < ) следующим образом:

V d ii ,d ,2 e D i , t i ( d i 2) <  t i ( d i. 2) о (V t‘ e t i ( d 1))х х(3 t ‘e t(d .2 ))(t‘Kt . )v( t , ‘- t , ).

т е. каждый дескриптор из t (d i л) представляет собой обобщение дескриптора из t i. ( d i 2) или идентичен дескриптору из t ( d 2).

Отношение позволяет сформулировать ответ Q на вопрос m e М в виде

Q = 5( m , ) = { d i : d i e D i л m i t i ( d i )}.

Пусть S p..., S n - локальные информационные системы, где S = ( T j , D j , M .. , 5 j ), j = 1, ..., n . Объединим системы

Sp .. ., Sn в одну систему S , которую в дальнейшем будем называть распределенной информационной системой , базирующейся на глобальном тезаурусе T = U T j .

Итак, пусть у нас имеется распределенная информационная система S = ( Т , D , , М , 5 ) с синонимическим отношением R и обобщающим отношением K . Тогда последовательность информационных систем можно определить следующим образом:

Sj= (Tj, Dj, Mj, 5j), где Tj e T, Dy e Di, My e Mi; 5. - сужение 5 на Mj; Vj = 1,n . Кроме того, отношения Rj = R n (Tj х Tj) и K j K n (Toj х TOj), где TOj - множество дескрипторов системы Sj.

Необходимо отметить, что множества T j и D у могут пересекаться.

Также покажем возможность существования подсистемы, которая позволяет формализовать отношение предпочтения одной системы перед другой.

Пусть S 1 = ( T 1 , D ,1 , M ,1 ,5 1 ) и S 2 = ( T 2, D ,2 , M ,2 ,5 2 ) -информационные системы. Система S 1 является подсистемой S 2 ( S 1 с S 2), если:

  • 1)    ( T с T 2 ) л ( K 1 = K 2 n ( T o1 х T o1 )) л ( R 1 = R 2 n ( T 1 х T 1 ));

  • 2)    Dn с Da;

  • 3)    ( M ,1 с M ,2 ) л < 1 = < 2 ( M n х M n));

  • 4)    51 ( m i ) = 52 ( m i ) n D , 1, m , e Mг 1.

Очевидно, что локальные информационные системы являются подсистемам распределенной информационной системы.

Ввиду того что множество разноязычных документов, например, в распределенной системе поддержки принятия решения является объединением множеств разноязычных документов локальных информационных систем, ответ на вопрос к распределенной системе можно выразить как результат некоторых операций над ответами от локальных систем.

Пусть m i = { m i } - вопрос, содержащий один дескриптор, а 5( m i ) - ответ на вопрос m i . В подсистеме S ответ на локальный вопрос m i = { m i } согласно описывается следующим образом:

5 j ( m , ) = { d , : d , e D у л m , yt , ( d , )}.

В свою очередь в распределенной системе S глобальный ответ на вопрос m , = { m ,}_ будет объединением локальных ответов 5( m , ) = U 5 j ( m , ).

Ответ на произвольный вопрос m , = { mn ,..., m k } для любого языкового множества в распределенной системе выражается формулой

k

  • 5(    m , ) = 1 5( m i ), m ,i = { m l } .

1 =1

В [4] показана справедливость этой формулы и ее согласованность с определением последовательности информационных систем в рамках произвольного языкового множества , однако необходимо отметить, что данная формула может быть модифицирована и для случая, когда имеется произвольное количество языковых множеств.

Итак, распределенная информационная система обладает свойством включения, если множество вопросов частично упорядочено отношением и выполняется условие

{ m ii , m i2 } c M i л m ii m 12 fi 6( m ii ) з 6( m 12 ) .

Свойство включения позволяет формулировать цепь ответов на цепь вопросов, уточняя ответы более специализированными вопросами.

При реализации систем поддержки принятия решений находит место и более интересная модель распределенной системы, основанная на частотных мультилинг-вистических тезаурусах.

Для работы с обобщенной распределенной мульти-лингвистической информационной системой, а также для работы с мультилингвистическими системами поддержки принятия решений, вводятся веса, которые будут описывать информационное содержание терма в каждом языковом множестве [4].

Покажем работу предлагаемой модели для произвольного языка j (количество языков в обработке зависит от имеющегося мультилингвитического словаря и представленного в нем языкового многообразия) [5]. Вес w j соответствует объему информации, относящейся к дискрип-тору t j , т. е. j d j ) = { < t j w: . < t j w 2>, ^, < t j w>} и выполняются условия:

  • 1)    t ji * tqj Л t j Kt qj fi ( V w j 6 [0,1])( j w j ) 6 j d j ) v ( V w q 6 e [0,i])( jw^ 6 t j ( d j );

k

  • 2)    S w j = 1.

i= 1

Описание мультилингвистических документов также удовлетворяет свойству включения. Дадим определение подобия вопросов и описаний документов.

Пусть t . ( d 1 . ), t . ( d 2 j ) - описания мультилигвистических документов. представленных в j -м языковом множестве:

j d i j ) = {< t iij ,w iXj > ,

  • < t i2 j , w j >  ,..., < t 1 kj w i >}, t ( d у) = {< t2Ц,w 2ij >,< t 22j ’ w 22 j >  ,..., < t 2 k 2 j , w 2 k 2 j >}.

Описание tj(di j) подобно описанию tj(d2j) с точностью p(0 < p < i), если tj( dij) < jd 2j) л V wXij p < S w j

< t i j , w ij >6 1 ( d i j ) q :[ t 2 q 6 I ( t i q )]

где I j ( t i ij ) = { t 2 q : t i ij Kt 2qj л i <  q k 2 } при i i k i . Если t . ( d i j ) и t . ( d 2 j ) удовлетворяют этому условию, то пишется j d i j < / j d

Отношения подобия, доказательство которых очевидно, также можно представить в мультилингвистическом виде:

  • -     если     ( j d v) <  j d j , )) л (p i > p 2 ),    то

j di j )

2

Md 2 2 );

  • -    если ( t j ( d у ) < p i t j ( d 2 j )) л ( t j ( d2 j ) < p 2 t j ( d з , )) , то j d i j ) < p t j ( d 3 j), (p < p i p 2 ).

Представляет интерес величина, характеризующая коэффициент подобия, или меру корреляции пар муль-тилингвистических векторов, удовлетворяющих отношению < .

Для векторов tj ( d i j ), tj ( d 2 j ), таких что tj ( d i j ) tj ( d 2 j ), мера корреляции будет

Ц ( t j ( d у), t j ( d 2 j )) =

  • = S       m in( w iij ,    S    w 2 qj)’

i :( tiij w i j ) 6 tj ( d i j )                 q :[ t 2 q 6 I ( t i qi )]

где I ( t i j ) = { 1 2 sj t i ij Kt 2 Sj л i <  s k 2 } при У i k i .

Мера ц фактически оценивает пересекающуюся информацию, заключенную в описании документов t ( d у j ), t ( d 2 j ).

Таким образом, распределенная мультилингвистичес-кая информационная система на тезаурусе с весами представляется четверкой ( T , D j , M j , 5 ), где T - тезаурус с деск-риптовым множеством T 0 c T ; 6: M j x [0,i] ^ 2 D j x [0'i] , сопоставляющей каждой паре (вопрос, точность подобия) множество пар (документ, мера корреляции).

Ответом системы на вопрос m j с требуемой точностью p = c называется множество

Q = 6( m j , c ) =

( d j ,а): d j 6 D j лm j < c t j ( d j )ла =

_= p( m j , t j ( d j ))

> c

c D j x[0,i].

В определении ответа N = 6( m j , c ) отношение подобия <  c осуществляет выбор мультилингвистических документов, точность подобия которых не менее c . Мера корреляции p( m j ., t j . ( d j )) показывает, какая часть информации в документе соответствует ответу на вопрос.

В заключение рассмотрим одно из фундаментальных свойств ответа, связанное с точностью p и мерой корреляции ц вопроса к описанию мультилингвистических документов, включенных в ответ. Покажем его следующим образом: если документ d j 6 D^ с мерой корреляции а включен в ответ, т. е. ( d j ,а) е 6( m j , c ), то верно неравенство а >  c . Обратное утверждение неверно. Также необходимо отметить, что если р у > p 2, то 6( m j ,pi) c 6( m j ,p2).

Таким образом, по сравнению с исходными моделями распределенных информационных систем [6; 7] представленные мультилигвистические модели позволяют составлять мультилингвистические ответы даже на одноязычные запросы более гибко и с учетом неопределенности описания как мультилингвистических документов, так и самих запросов [8].

Статья научная