Мультилингвистическая модель распределенной системы на основе тезауруса
Автор: Зеленков Павел Викторович, Ковалев Игорь Владимирович, Карасева Маргарита Владимировна, Рогов Сергей Викторович
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 1 (18), 2008 года.
Бесплатный доступ
Предложена модель, решающая проблему одноязычного представления информации в информационно-управляющих системах и проблему организации, хранения и обработки информации в современных распределенных мультилингвистических корпоративных системах поддержки принятия решений.
Короткий адрес: https://sciup.org/148175651
IDR: 148175651
Текст научной статьи Мультилингвистическая модель распределенной системы на основе тезауруса
В настоящее время разработано множество моделей для представления распределенных систем (РС) вычисления и обработки информации. Их частными случаями являются информационные системы, корпоративные информационные системы и интенсивно развивающиеся системы поддержки принятия решений. Одним из перспективных направлений при создании новых моделей распределенных систем является применение словарей, или тезаурусов. Однако большинство этих моделей строится на основе одноязычного представления информации или учитывает многоязычность неявно.
Авторами была разработана модель РС, использующая тезаурусы, выполненные на основе мультилингвис-тической технологии [1]. Эта технология направлена в первую очередь на решение проблемы многоязычного представления информации в информационно-управля-ющих системах [2], поскольку в современных условиях даже небольшие корпоративные информационные системы, как правило, уже работают в мультилингвистичес-ком режиме.
Рассмотрим следующее определение мультилингви-стического тезауруса Т слов Т. (где i - языковое множество;, / - терм в языковом множестве), сформированное на базе положений, представленных ниже и отвечающих следующим условиям:
-
1) имеется непустое подмножество Т о с Т, называемое множеством дескрипторов;
-
2) имеется симметричное транзитивное рефлексивное отношение R с T х T , такое, что:
-
- ti 1 * trt. A ti 1 Rti 2 ^ ( t i 1 G T o ) V ( t i 2 G T )
-
- t i 1 G T o ^ ( 3 t i G T o)( t i Rt if ).
Отношение R называется синонимическим отношением, а слова t i1, t i2, отвечающие этому отношению, - это синонимические дескрипторы;
-
3) имеется транзитивное и несимметричное отношение К с Т X Т , называемое обобщающим отношением.
В случае если два дескриптора ti 1, t .2 удовлетворяют отношению t e ti 2, то полагается, что дескриптор t . более общий, чем дескриптор ti 2.
Элементы множества Т / Т называются множеством аскрипторов.
Таким образом, информационную систему с применением тезауруса можно представить в виде четверки ( Т , D, М,, 5 ), где Т - мультилингвистический тезаурус с дескрипторным множеством Т о; D, - коллекция разноязычных документов; М - множество разноязычных вопросов; 5 ^ 2D - отображение, сопоставляющее каждому независимому от языковой принадлежности вопросу множество разноязычных документов.
Пусть описание любого документа d е D, представлено в виде
^H'n^,-,^} и удовлетворяет условию: ни один из двух дескрипторов не встречаются в одном tfd) если они удовлетворяют отношению К.
Можно также считать, что каждый вопрос m, е М. представлен в форме, аналогичной описанию разноязычных документов.
Множество описаний вопросов и документов частично упорядочено отношением включения < следующим образом:
V diV d i2 e D i , t i ( d i i ) < t i (d i 2 ) ^ ( V t i ‘e t , ( d J) x x ( 3 t i"e t ( d i 2 ))( t'Kt," ) v ( t /- t" ) , т е. каждый дескриптор из t . ( A ) представляет собой обобщение дескриптора из t . ( A . 2) или идентичен дескриптору итА).
Отношение < позволяет сформулировать ответ Q на вопрос т. e М . в виде
Q = 8 ( m i ) = { d i : d i е D i л m i < t i ( d i )} .
Пусть S t,..., Sn - локальные информационные системы, где S . = (Т, D . , М. . , 8 ), j = 1,..., п. Соединим системы Sp ..., Sn в одну систему S , которую в дальнейшем будем называть распределенной информационной системой, базирующейся на глобальном тезаурусе T = U T j .
Итак, пусть у нас имеется распределенная ' информационная система S = (Т, D . , М,, 8 ) с синонимическим отношением R и обобщающим отношением К. Тогда последовательность информационных систем можно определить следующим образом:
S j = ( T j , D j , M j , 8 j ), где T j e T , D j e D i , M j e M .; 8 - сужение 8 на M j ; V j = 1, n . Кроме того, отношения R . = R n ( T j x T j ) и K j = K n ( T 0 j x T 0 j ) , T - множество дескрипторов системы S . .
Необходимо отметить, что множества Т . и D . могут пересекаться.
Также покажем возможность существования подсистемы, которая позволяет формализовать отношение предпочтения одной системы перед другой.
Пусть S 1 = ( T , D i 1 , M i 1 , 8 1 ) и S 2 = ( T 2 , D i 2 , M i 2 , 8 2 ) -информационные системы. Система S 1 является подсистемой S 2, S 1 с S 2, если:
-
1) ( T 1 с T) л ( K 1 = K 2 n ( T 01 x T 01 )) л ( R i = R 2 n (T i x T ));
-
2) D i 1 с Dn ;
-
3) ( M n с M i 2 ) л < =< 2 ( M i 1 x M i 1 )) ;
-
4) 8 1 ( m i ) = 8 2 ( m i ) n D i 1 , m i e M i 1 .
Очевидно, что локальные информационные системы являются подсистемами распределенной информационной системы.
Ввиду того что множество разноязычных документов распределенной системы поддержки принятия решений является объединением множеств разноязычных документов локальных систем, можно выразить ответ на вопрос к распределенной системе как результат некоторых операций над ответами от локальных систем.
Пусть mi. = { m i } - вопрос, содержащий один дескриптор, а 8 ( m i ) - ответ на вопрос m i .В подсистеме S . ответ на локальный вопрос m i = { m i } описывается в следующей форме:
8 j ( m i ) = { d i : d i e D ij л m i < t i ( d i )} .
В свою очередь в распределенной системе S глобальный ответ на вопрос m i = { m i .} будет объединением локальных ответов 8 ( m i .) = и 8 . ( m i ).
jj
Ответ на произвольный вопрос m i = { m i 1 ,..., m ik } для любого языкового множества , в распределенной системе выражается формулой
k
8( m i ) = 1 8( mu ), mu ={ m il } . (1)
1 =1
Покажем справедливость этой формулы и ее согласованность с определением последовательности информационных систем (в рамках произвольного языкового множества , ):
5(™i)=П^т')=Пи^/(/и'/)’ /=1 /=1 /=1
QLM
^.ПОцПт,,
I { d i : d i e U D ij л mu < t i ( d i )},
1 =1 j =1
k
I { d i : d i e D i л m il < t i ( d i )} , 1 =1
{ d i : d i e D i л m i < t i ( d i )} .
Необходимо отметить, что формула (1) может быть модифицирована и для случая, когда имеется произвольное количество языковых множеств.
Итак, распределенная информационная система обладает свойством включения, если множество вопросов частично упорядочено отношением и выполняется условие
{ m i 1 , m i 2 } с M i л m i 1 < m i 2 ^ 8 ( m i 1 ) ^ 8 ( m i 2 ) .
Свойство включения позволяет формулировать цепь ответов на цепь вопросов, уточняя ответы более специализированными вопросами.
Таким образом, предлагаемая авторами мультилинг-вистическая модель позволяет решить проблему организации, хранения и обработки информации в современных распределенных мультилингвистических корпоративных системах поддержки принятия решений. Кроме того, представленные выше модели учитывают неопределенность описания как мультилингвистических документов, так и запросов и позволяют составить более гибкие муль-тилингвистические ответы даже на одноязычные запросы по сравнению с простой распределенной информационной системой.