Методика ассоциативного формирования онтологии корпоративного знания
Автор: Кафтанников Игорь Леопольдович, Пименова Надежда Владимировна
Статья в выпуске: 3 (103), 2008 года.
Бесплатный доступ
Короткий адрес: https://sciup.org/147154647
IDR: 147154647
Текст статьи Методика ассоциативного формирования онтологии корпоративного знания
Вопросы компьютерного получения, интеграции, сохранения и воспроизведения корпоративных (общественных) знаний и адекватной, согласованной их интерпретации и субъектами формирующими и использующими корпоративные знания, а также вопросы организации взаимодействия в системе человек-компьютер становятся все более актуальными.
Опираясь на [1], можно описать передачу одним человеком другому представления некоторой ситуации Sj как где т— некоторый оператор отображения ситуации в сознании человека; £ - оператор репрезентации ситуации в сознании; % - оператор отображения репрезентации в символьной коммуникативной системе, например текстовой.
Естественно, что операторы q,fm- индивидуальны, причем в настоящее время нет каких-либо формальных моделей, описывающих эти операторы.
Преобразования в искусственных нейронных структурах нельзя считать моделями данных операторов в силу существенных различий в функционировании биологических и искусственных систем.
Поэтому закономерен вопрос исследования способов получения некоторого приближения указанных операторов. Это приближение можно попытаться получить в рамках двух направлений:
-
• используя методы внешнего исследования различных интерпретаций предъявляемых ситуаций с точки зрения информационных преобразований, формировать алгоритмические модели таких преобразований и исследовать их свойства;
-
• используя полученные алгоритмические модели разрабатывать нейронные структуры, с одной стороны более приближенные к реальным биологическим структурам (например, с дендрит-дендритными, аксон-аксонными или смешанными связями), с другой - адекватные по преобразованиям полученным алгоритмическим моделям.
При корпоративном подходе к формализации знаний и автоматизации работы с ними определение некоторой предметной области (ПО) в настоящее время решается посредством, например, онтологий. Тезаурус понятий и отношений в конкретной онтологии определяется постоянной или переменной группой экспертов. При этом также возникает вопрос о степени восприятия полученной онтологии конкретным экспертом или пользователем, поскольку онтологии и языки над ними предназначены в первую очередь для семиотической формализации автоматизации обработки знаний.
В рамках первого из указанных направлений на кафедре ЭВМ ЮУрГУ проводился ряд экспериментов по анализу соотношений индивидуального Т) = {(,t} и группового TD = {7}} знания (терминологического состава какой-либо предметной области TD\ При этом анализ проводился раздельно по объектам (понятиям) и взаимосвязи между объектами (отношения, действия).
Первый набор экспериментов показал, что терминологический объем ПО экспертов существенно различен, также
|П 7}| < |7}| < |U 7) I, и |П 7)| отличается от |U 7}| более чем на два порядка для групп (по 15-25 человек) экспертов (студенты различных курсов) в каждой. Также существенно отличаются и 7} от TD. Вследствие этого авторами разработана методика ассоциирования термина с ПО и применения мажоритарного принципа включения терминов в тезаурус онтологии. Методика реализует некоторый компромисс между уровнем объективности и вероятностью успешности процесса построения Тр группой экспертов Е.
Данная методика представляет собой последовательность ряда этапов, в частности:
-
1. Построение функции принадлежности терминов временной обобщенной терминологии Тр^ предметной области D группы Е терминологии Т^ предметной области D эксперта е,:
-
2. Определение весового коэффициента включенности терминов в результирующее множество Тр :
-
3. Построение результирующей терминологии Ту предметной области D группы экспертов Е;
■Г6! .тЕ v о
7е • 1Dim где В = {0,1}, a f^ - полная функция, определяемая как если t^imk eTg ;
0 в противном случае, где 4imk еТ^т,к = 1,\ту.
fv-TL^w, где W = {0,1,.., и}, и = |Е|.
Здесь W - множество возможных значений весовых коэффициентов, fw - полная функция, заданная в виде:
z=l где tDimk eT^m,k = \\l^m\.
Td = ^Dimk : fthAfw^DimkT) = Vmmk е Тц1т,
^ = l,fc|}-
При этом варьирование порогового значения функции thr позволяет добиться соотношения между уровнем объективности и вероятностью успешности процесса построения Ту , оптимального с точки зрения поставленной задачи.
Эта методика также позволяет оценить субъективность терминологического представления D экспертом. На рис. 1 представлены графики, отражающие субъективность терминологии отдельно взятого эксперта и общей терминологии D (при значениях порога до 60 %).
который машинный аналог комплексного оператора <ть£, qj>\ рис. 2;
^2

Рис. 2. Частоты включения терминов

О 5 10 15 20 25 30 35 40 45 50 55 60
% (threshold)
Рис. 1. Уровни субъективности
-
• отсутствие корреляции между частотами включения терминов при экспертном и машинном формировании терминологической базы - рис. 3.
.............Веса терминов, полученные от экспертов-машин .............■■■“Веса терминов, полученные от экспертов-людей
Рис. 3. Частотное распределение терминологических баз одной ПО
Из графиков видно, видно, что субъективность терминологии конкретного эксперта определяемая относительно общей терминологии имеет существенную нелинейную зависимость от значения порога. В тоже время анализ множества графиков показывает определенную схожесть зависимостей индивидуальных субъективностей, а это позволяет получить определенные критерии оптимизации при кластеризации совокупного действия операторов mbfj, %.
Интересно, что сравнение частотного распределения наборов терминов полученного экспертами по запросам поисковых машин (Яндекс, Рамблер, Google) показало:
-
• значительный разброс частот включения одного термина для разных поисковиков (как не
Во второй группе экспериментов определялась взаимосвязь терминов на квадратной матрице отношений, аналогичной матрице принадлежности.
Тип взаимосвязи - бинарный. Результаты также показали существенное различие между представлениями экспертов о некоторой ПО, причем ПО имела непосредственное отношение к их профессиональной деятельности.
На рис. 4 представлены матрицу взаимосвязи двух разных, произвольно выбранных экспертов.
Анализ результатов показывает, что основной проблемой является не оценка тезауруса субъекта по отношению к групповому, - здесь можно использовать предложенный авторами мажоритарный принцип на метрике 91+ - а определение метрики оценки взаимосвязи понятий.
Авторы предлагают использовать для оценки взаимосвязи двухкомпонентную оценку:
Методика ассоциативного формирования онтологий корпоративного знания понятие информатика история развитие место фундаментальный наука
I ихнология аспект измерение понятие информатика история развитие место фундаментальный наука технология аспект измерение
Рис. 4. Матрицы взаимосвязи
Во-первых, через среднее значение весовых коэффициентов включенности терминов в результирующее множество Т^: f^J = 1/2 ^ + /^ ).
Во-вторых, через частотные коэффициенты /„ ассоциированной включенности взаимосвязи, аналогично получаемые на представленных бинарных матрицах по описанному мажоритарному принципу.
Конечно, можно вводить индивидуальные коэффициенты «важности» терминов и взаимосвязей, однако это будет мешать непосредственному ассоциированию терминов и взаимосвязей.
Окончательно, оценка взаимосвязи определяется как Ov,w = fvfwJ •
При данных условиях можно установить не только наличие связей в онтологии но оценить их существенность, то есть существенность приобретает числовое значение.
Применяя описанный подход можно далее определять пересечение, объединение онтологий, а также изучать субъективность восприятия ПО конкретными субъектами.
Список литературы Методика ассоциативного формирования онтологии корпоративного знания
- Гаврилова Т.А. Извлечение и структурирование знаний для экспертных систем/Т.А. Гаврилова, К.Р. Червинская. М.: Радио и связь, 1992.