Модель интеграции данных в единое информационное пространство предприятия с использованием метода n-грамм

Автор: Подобрий Александр Николаевич

Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc

Рубрика: Механика и машиностроение

Статья в выпуске: 4-3 т.14, 2012 года.

Бесплатный доступ

В статье рассматривается подход к реализации сопоставления данных с помощью модифицированного метода n-грамм. Выводится модель интегрированной информационной системы и доступа к сопоставленным данным в рамках корпоративной информационной сети. Статья предназначена для специалистов, занимающихся внедрением автоматизированных систем управления предприятием, а также для специалистов занимающихся вопросами интеграции данных.

Интеграция данных, n-грамм, матрица доступа, предприятие, модель интеграции

Короткий адрес: https://sciup.org/148201307

IDR: 148201307

Текст научной статьи Модель интеграции данных в единое информационное пространство предприятия с использованием метода n-грамм

Интеграция данных – обеспечение единого согласованного представления данных для ряда информационных ресурсов, объединенных общим смысловым содержанием, и/или на основе общего представления – частных представлений.

Интеграция данных в информационных системах понимается как обеспечение единого унифицированного интерфейса для доступа к некоторой совокупности, неоднородных независимых источников данных. Таким образом, для пользователя информационные ресурсы всей совокупности интегрируемых источников представляются как новый единый источник. Система, обеспечивающая пользователю такие возможности, называется системой интеграции данных [1, 2].

Система интеграции данных освобождает пользователей от необходимости знания, данные из каких источников, кроме интегрированного, они используют, каковы свойства этих источников и как осуществить доступ к ним. Доступ к данным многих источников обеспечивается через единый интерфейс, который представляет совокупность данных из множества независимых источников в терминах единой модели данных на основании прав доступа.

Существуют три основных типа информационного поиска: булевый, поиск по релевантности и поиск по сходству. Для сопоставления неоднозначных наименований объектов предлагается использовать метод нечеткого поиска основанный на релевантности – количественного критерия схожести. В основе данного метода лежит модифицированный метод n-грамм.

n-грамм, и матрицы прав доступа сотрудников предприятия.

МОДЕЛЬ ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ

Основным понятием описываемой модели является понятие информационного объекта, являющимся сущностью информационной системы [3].

Набором информационных объектов назовем множество упорядоченных пар вида:

x = {< a J, bx >, < a 2, b 2 >,..., < a„, bn >}, ai <> aj для i <> j , i, j e {1..n}, где a – имя атрибута (идентификатор), b – характеристика (свойство) объекта.

Набор свойств bi можно представить как кортеж полей bi = {ei 1, ei2 v, ein } , каждое поле которого состоит из набора:

e ij = ( v j , s j) , где vij – значение атрибута, sij – тип атрибута

Таким образом, набор свойств информационного объекта заданных множеством характеристик ставят в соответствие каждому объекту некоторое свойство b i e B = { b 1 ,b 2,..., b n } .

Через O x обозначим множество атрибутов элемента x , через o i ( x ) - характеристика атрибута oi объекта x .

Информационную систему рассмотрим как структуру информационной схемы, описывающей характеристики входящих в эту систему информационных объектов.

Информационная схема включает в себя следующие характеристики:

  • -    множество характеристик информационных объектов;

  • -    множество атрибутов для информационных объектов каждой характеристики;

  • -    множество используемых атрибутов;

  • -    множество связей между информационными объектами;

  • -    множество иерархий (вложенностей) объектов.

Связи между информационными объектами зададим элементами множества L = { l 1, l 2,..., l k } , где каждый элемент является тройкой:

lj= {oj1, oj2,. rj} , где Oj 1, Oj2 - два связанных между собой объекта, rj – наименование (вид) роли, по которой связываются объекты.

Иерархия (дерево вложенности) объектов опишем множеством T = {t 1, t 2,..., t n } , где каждый элемент - это пара t. = ( o i , O j ) , где i е {1.. п} , в которой первый элемент соответствует объекту с тем же индексом, а второй указывает на объект, который является родительским по отношению к данному в иерархии.

Информационной схемой назовем набор: M =< O , B , L , T >  , где O = { о1 2,..., o n } - множество атрибутов информационных объектов;

B = { b1,b 2,..., b n } — множество возможных характеристик атрибутов;

L = {l1,l 2,..., l k } - множество связей между информационными объектами;

T = {t 1,1 2,..., t p } - множество иерархий (вложенностей) объектов

Информационной системой построенной по схеме M назовем набор:

SM =< M , S , в > , где M =< O , B , L , T >  - информационная схема;

S = { x1,x 2,..., x n } - множествоинформационных объектов;

в : S ^ B - отображение, ставящее каждому объекту его характеристику.

Причем для каждого информационного объекта x S выполнено следующее условие:

Все атрибуты x имеют значение и тип, т.е. для любой пары е x существует b е в ( а ) .

Пусть M = { M 1,M 2,..., M n } - множество схем и нфор м ацион н ых систем. Используя SM = { S 1 M 1 , S 2 M 2 ,., S nMn }, обозначим множество информационных систем, каждая и з которых имеет соответствующую схему из M .

Для того, чтобы множества информационных систем можно было рассматривать как единую информационную систему, необходимо, чтобы разные информационные системы, входящие в S M могли иметь пересекающиеся множества атрибутов объектов и соответствующие им характеристики.

Таким образом, для построения интегрированной информационной системы, необходимо, чтобы отображения – B, ставящие каждому объекту его свойство на разных информационных системах совпадали.

Множество информационных систем SM неп р оти в оречи в о если существует SM = { S 1 M 1 , S 2 M 2 ,., S nMn } - множество информационных систем, где S iM =< M i , S i , в .> и M i =< O i , B i , L i , T >  , для которых:

S = U S . , O = U O i , B = U B i , L = U L i , T = U T .

1 < i < N           1 < i < N            1 < i < N           1 < i < N           1 < i < N

При условии, что существует отображение β : S B, являющееся расширением каждого отображения β i для 1 i n.

Таким образом, будем счи тать ин формационную систему S' =< M , S , в >  , где M =< O,B,L,T >  интегрированной на множестве S M .

ОПИСАНИЕ МОДЕЛИ СРАВНЕНИЯ ХАРАКТЕРИСТИК ИНФОРМАЦИОННЫХ ОБЪЕКТОВ

N-граммой на алфавите E некоторого языка L(E) будем представлять набор символов длиной n строки Y [5],

где E = {v,e1,e2,...,el} - алфавит;

L(E) – некоторый язык на алфавите E;

Y –строка символов.

N-грамма может совпадать с какой-либо строкой, быть его подстрокой или не входить в язык L(E):

  • -    если алфавит E = { v , e 1, e 2,..., e l } и строка Y = { У 1 2 ,..., У п ,$} , где V i , y . е A ,то n-грамма – это последовательность из n символов, принадлежащая одному слову;

  • -    если строки – это тексты, то n-грамма – это последовательность из N слов одного текста.

Число вхождений строки Y опишем множеством: C(w) = C(w1,w2,...,wn), где W = {w1,w2,...,wn} есть совокупность всех слов рассматриваемого языка L(E)

Вероятность P(W) появления n-граммы W = { w 1, w 2,..., w n } вычисляется по формуле:

P ( w . ) =

C (w.) X C (wj) , wj где wi – n – грамма;

C ( w i ) - количество вхождений w i ;

X C ( w j ) - общее число возможных n -грамм.

Если вероятность появления символов в любой позиции строки Y имеют одну и ту же вероятность, то формулу вероятности можно представить:

n

P ( w 1- wn ) = П P ( w )

i = 1

Таким образом, любые перестановки символов строки Y имеют одну и ту же вероятность.

Релевантность есть степень (коэффициент) соответствия поискового шаблона P = { p 1 ,p 2,..., pn } и просматриваемого текста. Данный коэффициент можно воспринимать как процент вхождения поисковой строки к общему объему текста.

Формулу релевантности можно представить как:

N

У r ( i )

R = ^----;

N sovp (str 1, str 2, i) + sovp (str 2, str 1, i)

r (1 ) = ------------------------------------------------

C (str 1, i) + C (str 2, i)          ’ где sovp(Y1, Y2, i) - сумма совпадений всех подстрок длиной i из строки Y1 в строке Y,;

C ( str 1, i ) - общее число возможных n -грамм длиной i;

N – фиксированная длина максимальной подстроки.

Данный метод позволяет получить схожие тексты информации с высокой долей вероятности. За счет увеличения фиксированной длины подстроки N, и в случае, когда N будет равно длине строки, при отсутствии точных дублей строк будет получено полностью равномерное распределение.

Недостатком данного метода можно считать низкую степень релевантности при сравнении строк с одинаковым набором слов, но с разным порядком следования.

Пример 1:

Вычислим коэффициент релевантности наименований двух атрибутов: Y 1 =(“Иванов Сергей”) и Y , =(“Сергей Иванов”)

При N=3 R= 0.72,

N=4 R=0.6

Для сравнения данных атрибутов разобьём строки Y1 и Y, на слова с помощью пробельного символа х, где G1 = {g 1,g2,...,gm} е Y — набор слов первой строки;

G2 = {g 1,g2,...,gk} е Y2 - набор слов вто- рой строки;

G 1 = m , G 2| = к

– количества слов в строках.

Таким образом, вероятность совпадения сло

-

ва g j строки Y 1 и строки Y , при длине n-грамма равной i получаем:

где sovp ( g j , str 2, i ) - сумма совпадений всех подстрок длиной i из набора слов G в строке Y ,;

C ( g j , i ) - общее число возможных n - грамм длиной i в слове G

Формула релевантности соответствия gi – отдельно взятого слова строки Y 1 со строкой Y , будет выражаться:

R ( g j ) =

N

У r ( i )

i = 1

N

Коэффициент релевантности строки Y 1 со строкой Y 2 :

m

У R ( g i )

R (G ‘) = -=1------ m где R(gj) - коэффициент релевантности gi слова строки Y1 ;

m - количество слов в строке Y 1 .

Аналогично выводится коэффициент реле вантности для строки Y2 .

Общий коэффициент соответствия двух строк Y 1 и Y 2 можно представить как:

= R (G1) + R (G2) v main               2           , где R(G1 ) - коэффициент релевантности строки Y1 со строкой Y2 ;

R ( G 2) - коэффициент релевантности строки Y 2 со строкой Y 1 .

Пример 2:

Вычислим коэффициент релевантности наименований двух атрибутов: Y 1 =(“Бензопила белая”) и Y , =(“Бензопила”)

При N=3,

R ( G 1 ) = 0.66, R ( G 2) =1, R main = 0.83

Таким образом, на основании полученных трех коэффициентов релевантности строк, фиксированная длина максимальной подстроки можно с высокой долей вероятности определить однозначные атрибуты. Для определения однозначного соответствия двух строк достаточно сделать длину подстроки плавающей в зависимости от максимальной длины gj .

Результат сопоставления можно увидеть на рис. 1, где данные берутся из разных корпоративных информационных систем и представляются в едином виде.

ПОСТРОЕНИЕ ЕДИНОГО ПОЛЬЗОВАТЕЛЬСКОГО ИНТЕРФЕЙСА r (i) =

sovp ( g j , str 2, i ) C ( g j , ii )

Информационной основой автоматизированной интегрированной информационной си-

Рис. 1. Окно программы просмотра приходных ордеров из КИС “Марс 1С” и КИС “Флагман”

стемы управления предприятия должна являться единая распределенная база данных, в которой каждый пользователь, обладающий соответственными правами доступа, может своевременно получить информацию из разных информационных систем [7].

Объект информационного ресурса интегрированной информационной системы можно представить как набор полей: h = {< aj,bx >,< a2,b2 >,...,< an,bn >}, ai <> aj для i <>j',   _

i,    j e{1..n}, ai e O, b e B , где a – идентификатор объекта,

  • b    – значение объекта.

Информационным ресурсом интегрированной информационной системы есть набор:

U = {H, V, D} , где H = {h1, h2,..., hn} — множество объектов информационного ресурса;

V = { V 1 , v 2,..., v n } — множество представлений;

D = { d 1 , d 2,..., dn } - множество прав доступа пользователей;

Представлением V информационного ресурса интегрированной информационной системы называется именованная функция или процедура представления пользователю набора информационных сущностей одного типа, определенных в виде реляционной таблицы. Представление, в свою очередь, включает в себя следующие множества:

  • -    набор входных параметров P = {p 1 ,p 2,..., pn } – на основании их значений и формируется конкретный экземпляр представления;

  • -    набор выходных параметров K = {kx,k 2 ,...kn } – поля, обеспечивающие уникальность каждой записи.

Множество всех информационных ресурсов обозначим U = { и 1 , u 2,..., u l } , где l - количество всех ресурсов.

Матрица прав доступа сотрудников предприятия к интегрированным объектам информационных ресурсов представляется:

S

' S 11

S 12

S 12          ..

22            ..

.         S 1 k

.        S 2 k

A

...

( S 1 1

...              ..

S l 2         .

.                ...

.          S lk

/

где Sij – множество прав доступа на просмотр и редактирование;

S l 1 - информационный ресурс из множества U;

S 1 k - информационный объект из множества Q . Множество прав доступа к информационным ресурсам Sij состоит из двоек вида:

( s p , s c ) , причем s p , s c e {0;1} , где s p – правила доступа на просмотр; sc – правила доступа на изменение. Таким образом матрицу прав доступа можно представить:

s =

(spH’scH) (S p21 S c21 )

...

v (spH’scH)

(Sp12,Sc12) ••• (Sp1k’Sc1k)(Sp22’Sc22) ••• (Sp2k’Sc2k)

...         ...         ...

Список литературы Модель интеграции данных в единое информационное пространство предприятия с использованием метода n-грамм

  • Levy A.Y. Logic-Based Techniques in Data Integration. Logic-based Techniques in Data Integration. In: Logic Based Artificial Intelligence. Edited by J. Minker. Kluwer Publishers, 2000.
  • Manolescu I., Florescu D., Kossman D. Answering XML Queries over Heterogeneous Data Sources. Proc. Of the 27th VLDB Conference, Roma, Italy, 2001.
  • Петров В. Н. Информационные системы. СПб.: Питер, 2002. 430 c.
  • Спирли, Э. Корпоративные хранилища данных. Планирование, разработка и реализация. Т.1. М.: Вильямс, 2001. 230 с.
  • Ахатов А. Р. Алгоритмы программной системы контроля текстовой информации на основе n-граммной языковой модели//Актуальные проблемы современной науки. 2009. № 3. С. 156-161.
  • Герасименко В.А., Малюк А.А. Основы защиты информации. М.: Инкомбук, 1997.
  • Подобрий А.Н. Информационная модель безопасности веб-портала на предприятиях. Инноватика-2011: Материалы международной конференции. Махачкала (март 2011).
  • Подобрий А.Н. Модель доступа к веб-порталу на современном предприятии//Известия Самарского научного центра РАН. 2011. Т.13. № 4(2). С. 475-478.
Статья научная