Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем
Автор: Савотченко Сергей Евгеньевич, Логинова Елена Александровна
Журнал: Теория и практика общественного развития @teoria-practica
Рубрика: Педагогические науки
Статья в выпуске: 6, 2012 года.
Бесплатный доступ
В статье предложен метод сравнительного анализа информационно-поисковых систем на предмет реализации в них семантических особенностей языка. Актуальность статьи связана с проблемой оптимизации работы информационно-поисковых систем. Новизна работы заключается в определении ряда показателей, характеризующих учет парадигматических отношений.
Информационный поиск, лингвистическое обеспечение, информационно-поисковый язык, парадигматические отношения, синонимия, омонимия, род - вид, часть - целое, ассоциация
Короткий адрес: https://sciup.org/14934443
IDR: 14934443 | УДК: 811.93
Mathematical method of the comparative analysis of information retrieval systems' semantic features
The authors present a method of the comparative analysis of information retrieval systems for implementation of linguistic semantic peculiarities in them. The timeliness of the article is conditioned by a problem of information retrieval systems optimization. The research novelty of the work is that it determines some indicators qualifying paradigmatic relations.
Текст научной статьи Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем
Современные информационно-поисковые системы (ИПС) предназначены для быстрого поиска документов, удовлетворяющих запросам пользователей. Необходимая предпосылка качества информационного поиска - качество лингвистического обеспечения ИПС. Лингвистическое обеспечение, как правило, включает в себя информационно-поисковые языки (ИПЯ), методов индексирования, средства разработки и ведения информационно-поисковых языков.
Качество ИПС можно определить по трем критериям: глубине (или полноте), точности и нормализованному языку понятий, то есть унифицированному, приведенному к стандартной форме. Мы рассмотрим последний критерий, а именно семантические особенности ИПЯ. Они выражаются установлением смысловых связей между понятиями или, другими словами, парадигматическими отношениями.
Парадигматические отношения – это отношения между словами, не зависящие от контекста, в котором они используются, и обусловленные наличием не языковых, а логических связей между предметами [2, c. 147]. В теории информационного поиска выделяют следующие основные виды парадигматических отношений:
-
1. Сильные:
-
а) отношения тождества (использование синонимов);
-
б) отношения иерархии (род-вид, часть-целое).
-
2. Слабые (ассоциативные):
-
а) отношения пересечения понятий;
-
б) отношения ассоциации;
-
в) отношения причины – следствия;
-
г) отношения смежности;
-
д) отношения контраста;
-
е) отношения кратности.
Наглядным примером эксплицитного (явного) представления парадигматических отношений являются дескрипторные ИПЯ и, в частности, информационно-поисковые тезаурусы. Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов. Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов [3, с. 68]. В АБИС в качестве дескрипторных ИПЯ широкое распространение получили информационно-поисковые тезаурусы.
Информационно-поисковый тезаурус (ИПТ) - это, прежде всего, словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами [4, с. 48].
Для обеспечения полноты отражения содержания документов и запросов с помощью ИПЯ с целью повышения эффективности информационного поиска в дескрипторном словаре для каждого дескриптора указываются его синонимы, а также родовые, видовые и ассоциативные отношения.
Анализ учета парадигматических отношений ИПЯ в современных ИПС можно проводить, используя специальным образам сформулированные последовательности запросов. Формулировка последовательности таких запросов должна учитывать следующие смысловые связи:
-
1) отношения иерархии (вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее часть);
-
2) отношения тождества (учет синонимов);
-
3) отношения ассоциации.
Для привлечения к анализу математического аппарата целесообразно ввести ряд показателей. Каждый из показателей является функцией вида F = F ( Q , S , N ), где Q - вид запроса, S - информационно-поисковая система, N - объем базы поиска (общее количество документов, среди которых производится поиск). Последняя величина N имеет конечное значение для локальных ИПС, а для глобальных ИПС, работающих в Интернете, считается условно бесконечной. Поэтому для глобальных ИПС учитывать N не имеет смысла, а соответствующие показатели становятся функциями вида F = F ( Q , S ).
Пусть i - уровень запроса в последовательности. Определим последовательность запросов по следующему принципу:
i = 0 - базовый уровень, в котором вводится основное слово (словосочетание), i = 1 - первый уровень (с), в котором вводится синоним к запросу базового уровня, i = 2 - второй уровень (вр), в котором вводится вышестоящее родовое понятие к запросу базового уровня, i = 3 - третий уровень (вц), в котором вводится вышестоящее целое понятие к запросу базового уровня, i = 4 - четвертый уровень (нч), в котором вводится нижестоящее частичное понятие к запросу базового уровня, i = 5 - пятый уровень, в котором вводится нижестоящее видовое понятие к запросу базового уровня (нв), i = 6 - шестой уровень (а), в котором вводится ассоциация к запросу базового уровня.
Введем следующие группы показателей.
-
1. Абсолютные показатели .
-
2. Относительные показатели .
Объем i -ого уровня запроса - количество результатов поиска, то есть документов, выдаваемых на i -ый запрос вида Q ИПС S : а , = а , ( Q , S ).
Абсолютная вариация - разность между объемами i -ого и j -ого уровней:
A j = 4 — A j . (1)
Коэффициент i -ого уровня запроса - отношение объема i -ого уровня к объему базы поиска:
A
Kt = — . (2)
i N
Индекс i -ого и j -ого уровней - отношение объема i -ого уровня к объему j -ого уровня:
Jjj =
A i
. A j
Относительная вариация – отношение соответствующей абсолютной вариации к объему базы поиска:
A
.
Индексная вариация – разность между индексами различных уровней:
V ij; nm
= J - J .
ij nm .
Следует отметить, что индексы (3) и их вариации (5) не зависят от объема базы поиска N . Поэтому их следует использовать для сравнительного анализа глобальных ИПС.
Методика сравнительного анализа выбранной пары ИПС S 1 и S 2 предлагается следующая. В каждой ИПС S 1 и S 2 вводится одна и та же фиксированная последовательность запросов Q . В результате для каждого уровня получаются соответствующие объемы А i ( Q , S 1 ) А i ( Q , S 2 ), i = 0, 1, …, 6. По этим данным для каждого уровня вычисляются наборы показателей выбранного вида (среди выше определенных) F i ( Q , S 1 ) и F i ( Q , S 2 ).
Ясно, что для одинаковых механизмов поиска, реализованных в ИПС S 1 и S 2 , эти показатели на фиксированном уровне мало различаются, то есть разности d i = F i ( Q , S 1 ) – F i ( Q , S 2 ) должны быть близки к нулю. В рассматриваем случае для оценки значимости отличия от нуля такой разности целесообразно использовать парный критерий Стьюдента [5, с. 321].
Экспериментальное значение этого критерия вычисляется по формуле:
n
T = — S d . ' (6)
n a i = 1
где n – количество показателей в ряду, a - среднеквадратическая ошибка, вычисляемая по формуле:
nn
S d - 1 I S d . l . = 1 n I . = 1 )
.
( n - 1)
Согласно методам статистического анализа, экспериментальное значение критерия (6) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента t a ( f), где a - уровень значимости (обычно выбирается пятипроцентный уровень значимости a =0,05), f = n - 1 - число степеней свободы.
Правила принятия решения:
-
1) если | Т | < ta ( f ) , то сравниваемые экспериментальные данные различаются незначи-
- мо, то есть различие между ними носит случайный характер;
-
2) если | T | > t a( f ) , то сравниваемые экспериментальные данные различаются значимо, то есть различие между ними носит закономерный характер.
Рассмотрим пример использования описанной методики. Выберем две глобальных поисковых системы S 1 = {nigma.ru} и S 2 = {ngs.ru}. Последовательность запроса Q формируется с помощью тезауруса: Q 0 = {линейная алгебра}, Q 1 = {алгебра Банаха}, Q 2 = {математическая наука}, Q 3 = {высшая алгебра}, Q 4 = {линейное уравнение}, Q 5 = {матричная алгебра},
Q 6 = {определитель}. В результате проведения запросов в этих ИПС по формуле (3) вычисляются некоторые индексы, которые играют роль величин F i (см.: таблицу 1).
Таблица 1 – Значения индексов
|
Индексы |
ИПС |
|
|
S 1 |
S 2 |
|
|
J 10 |
0,011 |
0,010 |
|
J 20 |
20,526 |
20,500 |
|
J 30 |
2,158 |
2,000 |
|
J 40 |
1,684 |
1,500 |
|
J 50 |
0,632 |
0,500 |
|
J 60 |
1,737 |
1,500 |
|
J 23 |
9,512 |
10,250 |
|
J 45 |
2,667 |
3,000 |
Для этих данных экспериментальное значение критерия вычисляется по формуле (6): T = 0,355. Количество наблюдений n = 8, тогда число степеней свободs f = 7. Критическая точка двусторонней области распределения Стьюдента для пятипроцентного уровня значимости: 1 0,05 (7) = 2,365. Видно, что выполняется неравенство: | т | = 0,355 < 2,365 = ta ( f ) . Согласно правилам приятия решения это означает, что результаты наблюдений для ИПС S 1 и S 2 различаются незначимо. Другими словами, это показывает, что в ИПС S 1 и S 2 реализован одинаковый механизм поиска, учитывающий семантические особенности.
Из этого примера видно, что предложенный метод может использоваться для сравнительного анализа ИПС на предмет реализации в них семантических особенностей языка. Набор параметров может быть расширен, что уменьшает вероятность совершения ошибки в ходе статистического анализа. Можно убедиться, что для рассмотренных в примере ИПС, другие аналогичные последовательности запросов, формируемые на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведут к такому же выводу о характере их поисковых механизмов.
Ссылки и примечания:
-
1. Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.
-
2. Монастырский И.М. Информационно-поисковые системы. М., 1983.
-
3. Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.
-
4. Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.
-
5. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.
Список литературы Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем
- Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.
- Монастырский И.М. Информационно-поисковые системы. М., 1983.
- Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.
- Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.
- Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.