Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем
Автор: Карасева Маргарита Владимировна, Селиванова Марина Анатольевна, Зеленков Павел Викторович, Шукшина Екатерина Евгеньевна
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 3 (24), 2009 года.
Бесплатный доступ
Предложена модификация существующих моделей распределенных информационных систем, основанных на тезаурусах. Модификация направлена на решение проблемы мультилингвистичности представления информации в современных системах. Показаны две модели: первая основана на мультилингвистическом тезаурусе, вторая - на частотном мультилингвистическом тезаурусе.
Мультилингвистическая модель, тезаурус, частотный словарь
Короткий адрес: https://sciup.org/148175997
IDR: 148175997
Текст научной статьи Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем
В настоящее время разработано множество моделей для представления распределенных систем вычисления и (или) обработки информации. К ним, в частности, относятся информационные системы, корпоративные информационные системы и интенсивно развивающиеся системы поддержки принятия решения [1]. Однако большинство моделей распределенных систем строятся на основе одноязычного представления информации или учитывают многоязычие неявно [2].
Одним из перспективных направлений при разработке новых моделей является применение словарей, или тезаурусов. При этом необходимо отметить, что в современных системах подобные словари очень редко встречаются представленными в мультилингвистической реализации.
Авторский подход, отраженный в работах [2; 3], направлен в первую очередь на решение проблемы муль-тилингвистического представления информации в инфор- мационно-управляющих системах, поскольку в современных условиях даже небольшие корпоративные информационные системы, как правило, работают в мультилинг-вистическом режиме.
Рассмотрим следующее определение мультилингви-стического тезауруса Т слов Т у , сформированное на базе положений, представленных в работе [4], где I - языковое множество, а j - терм в языковом множестве, отвечающие следующим условиям:
-
1) имеется непустое подмножество Т . с T , называемое множеством дескрипторов ;
-
2) имеется симметричное, транзитивное рефлексивное отношение R с T х T , такое что
- tii * ti2 л tiiRti2 fi (tii e To)v (ti2 e To),
При этом отношение R называется синонимическим отношением , а слова t 1, t 2, отвечающие этому отношению, - синонимическими дескрипторами ;
-
3) имеется транзитивное и несимметричное отношение K с Т 0 х T 0, называемое обобщающим отношением .
В случае если два дескриптора t i 1, t i 2 удовлетворяют отношению t . 1 Kt. 2, то полагается, что дескриптор t . 1 более общий, чем дескриптор ti 2.
Элементы множества Т \ Т 0 называются множеством аскрипторов .
Таким образом, информационную систему с применением тезауруса можно представить в виде четверки ( Т , D i , M i , 5 ), где Т - мультилингвистический тезаурус с дескрипторным множеством Т 0; D. - коллекция разноязычных документов; М. - множество разноязычных вопросов; 5 : ^ 2 D - отображение, сопоставляющее каждому независимому от языковой принадлежности вопросу множество разноязычных документов.
Пусть описание любого документа d e D может быть представлено в виде
t(d) = {ti, ta, -, t»} и удовлетворяет условию: никакие два дескриптора не встречаются в одном ti(d,), если они удовлетворяют отношению K.
Можно также считать, что каждый вопрос m i e M представляется в форме, аналогичной описанию разноязычных документов.
Множество описаний вопросов и документов частично упорядочено отношением включения ( < ) следующим образом:
V d ii ,d ,2 e D i , t i ( d i 2) < t i ( d i. 2) о (V t‘ e t i ( d 1))х х(3 t ‘e t(d .2 ))(t‘Kt . )v( t , ‘- t , ).
т е. каждый дескриптор из t (d i л) представляет собой обобщение дескриптора из t i. ( d i 2) или идентичен дескриптору из t ( d 2).
Отношение < позволяет сформулировать ответ Q на вопрос m e М в виде
Q = 5( m , ) = { d i : d i e D i л m i < t i ( d i )}.
Пусть S p..., S n - локальные информационные системы, где S = ( T j , D j , M .. , 5 j ), j = 1, ..., n . Объединим системы
Sp .. ., Sn в одну систему S , которую в дальнейшем будем называть распределенной информационной системой , базирующейся на глобальном тезаурусе T = U T j .
Итак, пусть у нас имеется распределенная информационная система S = ( Т , D , , М , 5 ) с синонимическим отношением R и обобщающим отношением K . Тогда последовательность информационных систем можно определить следующим образом:
Sj= (Tj, Dj, Mj, 5j), где Tj e T, Dy e Di, My e Mi; 5. - сужение 5 на Mj; Vj = 1,n . Кроме того, отношения Rj = R n (Tj х Tj) и K j K n (Toj х TOj), где TOj - множество дескрипторов системы Sj.
Необходимо отметить, что множества T j и D у могут пересекаться.
Также покажем возможность существования подсистемы, которая позволяет формализовать отношение предпочтения одной системы перед другой.
Пусть S 1 = ( T 1 , D ,1 , M ,1 ,5 1 ) и S 2 = ( T 2, D ,2 , M ,2 ,5 2 ) -информационные системы. Система S 1 является подсистемой S 2 ( S 1 с S 2), если:
-
1) ( T с T 2 ) л ( K 1 = K 2 n ( T o1 х T o1 )) л ( R 1 = R 2 n ( T 1 х T 1 ));
-
2) Dn с Da;
-
3) ( M ,1 с M ,2 ) л < 1 = < 2 ( M n х M n));
-
4) 51 ( m i ) = 52 ( m i ) n D , 1, m , e Mг 1.
Очевидно, что локальные информационные системы являются подсистемам распределенной информационной системы.
Ввиду того что множество разноязычных документов, например, в распределенной системе поддержки принятия решения является объединением множеств разноязычных документов локальных информационных систем, ответ на вопрос к распределенной системе можно выразить как результат некоторых операций над ответами от локальных систем.
Пусть m i = { m i } - вопрос, содержащий один дескриптор, а 5( m i ) - ответ на вопрос m i . В подсистеме S ответ на локальный вопрос m i = { m i } согласно описывается следующим образом:
5 j ( m , ) = { d , : d , e D у л m , < yt , ( d , )}.
В свою очередь в распределенной системе S глобальный ответ на вопрос m , = { m ,}_ будет объединением локальных ответов 5( m , ) = U 5 j ( m , ).
Ответ на произвольный вопрос m , = { mn ,..., m k } для любого языкового множества в распределенной системе выражается формулой
k
-
5( m , ) = 1 5( m i ), m ,i = { m l } .
1 =1
В [4] показана справедливость этой формулы и ее согласованность с определением последовательности информационных систем в рамках произвольного языкового множества , однако необходимо отметить, что данная формула может быть модифицирована и для случая, когда имеется произвольное количество языковых множеств.
Итак, распределенная информационная система обладает свойством включения, если множество вопросов частично упорядочено отношением и выполняется условие
{ m ii , m i2 } c M i л m ii < m 12 fi 6( m ii ) з 6( m 12 ) .
Свойство включения позволяет формулировать цепь ответов на цепь вопросов, уточняя ответы более специализированными вопросами.
При реализации систем поддержки принятия решений находит место и более интересная модель распределенной системы, основанная на частотных мультилинг-вистических тезаурусах.
Для работы с обобщенной распределенной мульти-лингвистической информационной системой, а также для работы с мультилингвистическими системами поддержки принятия решений, вводятся веса, которые будут описывать информационное содержание терма в каждом языковом множестве [4].
Покажем работу предлагаемой модели для произвольного языка j (количество языков в обработке зависит от имеющегося мультилингвитического словаря и представленного в нем языкового многообразия) [5]. Вес w j соответствует объему информации, относящейся к дискрип-тору t j , т. е. j d j ) = { < t j w: . < t j w 2>, ^, < t j w>} и выполняются условия:
-
1) t ji * tqj Л t j Kt qj fi ( V w j 6 [0,1])( j w j ) 6 j d j ) v ( V w q 6 e [0,i])( jw^ 6 t j ( d j );
k
-
2) S w j = 1.
i= 1
Описание мультилингвистических документов также удовлетворяет свойству включения. Дадим определение подобия вопросов и описаний документов.
Пусть t . ( d 1 . ), t . ( d 2 j ) - описания мультилигвистических документов. представленных в j -м языковом множестве:
j d i j ) = {< t iij ,w iXj > ,
-
< t i2 j , w j > ,..., < t 1 kj w i >}, t ( d у) = {< t2Ц,w 2ij >,< t 22j ’ w 22 j > ,..., < t 2 k 2 j , w 2 k 2 j >}.
Описание tj(di j) подобно описанию tj(d2j) с точностью p(0 < p < i), если tj( dij) < jd 2j) л V wXij p < S w j
< t i j , w ij >6 1 ( d i j ) q :[ t 2 q 6 I ( t i q )]
где I j ( t i ij ) = { t 2 q : t i ij Kt 2qj л i < q < k 2 } при i< i < k i . Если t . ( d i j ) и t . ( d 2 j ) удовлетворяют этому условию, то пишется j d i j < / j d 2д
Отношения подобия, доказательство которых очевидно, также можно представить в мультилингвистическом виде:
-
- если ( j d v) < j d j , )) л (p i > p 2 ), то
j
di
j
)
2
-
- если ( t j ( d у ) < p i t j ( d 2 j )) л ( t j ( d2 j ) < p 2 t j ( d з , )) , то j d i j ) < p t j ( d 3 j), (p < p i p 2 ).
Представляет интерес величина, характеризующая коэффициент подобия, или меру корреляции пар муль-тилингвистических векторов, удовлетворяющих отношению < .
Для векторов tj ( d i j ), tj ( d 2 j ), таких что tj ( d i j ) < tj ( d 2 j ), мера корреляции будет
Ц ( t j ( d у), t j ( d 2 j )) =
-
= S m in( w iij , S w 2 qj)’
i :( tiij ’ w i j ) 6 tj ( d i j ) q :[ t 2 q 6 I ( t i qi )]
где I ( t i j ) = { 1 2 sj t i ij Kt 2 Sj л i < s < k 2 } при У< i < k i .
Мера ц фактически оценивает пересекающуюся информацию, заключенную в описании документов t ( d у j ), t ( d 2 j ).
Таким образом, распределенная мультилингвистичес-кая информационная система на тезаурусе с весами представляется четверкой ( T , D j , M j , 5 ), где T - тезаурус с деск-риптовым множеством T 0 c T ; 6: M j x [0,i] ^ 2 D j x [0'i] , сопоставляющей каждой паре (вопрос, точность подобия) множество пар (документ, мера корреляции).
Ответом системы на вопрос m j с требуемой точностью p = c называется множество
Q = 6( m j , c ) =
( d j ,а): d j 6 D j лm j < c t j ( d j )ла =
_= p( m j , t j ( d j ))
> c
c D j x[0,i].
В определении ответа N = 6( m j , c ) отношение подобия < c осуществляет выбор мультилингвистических документов, точность подобия которых не менее c . Мера корреляции p( m j ., t j . ( d j )) показывает, какая часть информации в документе соответствует ответу на вопрос.
В заключение рассмотрим одно из фундаментальных свойств ответа, связанное с точностью p и мерой корреляции ц вопроса к описанию мультилингвистических документов, включенных в ответ. Покажем его следующим образом: если документ d j 6 D^ с мерой корреляции а включен в ответ, т. е. ( d j ,а) е 6( m j , c ), то верно неравенство а > c . Обратное утверждение неверно. Также необходимо отметить, что если р у > p 2, то 6( m j ,pi) c 6( m j ,p2).
Таким образом, по сравнению с исходными моделями распределенных информационных систем [6; 7] представленные мультилигвистические модели позволяют составлять мультилингвистические ответы даже на одноязычные запросы более гибко и с учетом неопределенности описания как мультилингвистических документов, так и самих запросов [8].