Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем
Автор: Савотченко Сергей Евгеньевич, Логинова Елена Александровна
Журнал: Теория и практика общественного развития @teoria-practica
Рубрика: Педагогические науки
Статья в выпуске: 6, 2012 года.
Бесплатный доступ
В статье предложен метод сравнительного анализа информационно-поисковых систем на предмет реализации в них семантических особенностей языка. Актуальность статьи связана с проблемой оптимизации работы информационно-поисковых систем. Новизна работы заключается в определении ряда показателей, характеризующих учет парадигматических отношений.
Информационный поиск, лингвистическое обеспечение, информационно-поисковый язык, парадигматические отношения, синонимия, омонимия, род - вид, часть - целое, ассоциация
Короткий адрес: https://sciup.org/14934443
IDR: 14934443
Текст научной статьи Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем
Современные информационно-поисковые системы (ИПС) предназначены для быстрого поиска документов, удовлетворяющих запросам пользователей. Необходимая предпосылка качества информационного поиска - качество лингвистического обеспечения ИПС. Лингвистическое обеспечение, как правило, включает в себя информационно-поисковые языки (ИПЯ), методов индексирования, средства разработки и ведения информационно-поисковых языков.
Качество ИПС можно определить по трем критериям: глубине (или полноте), точности и нормализованному языку понятий, то есть унифицированному, приведенному к стандартной форме. Мы рассмотрим последний критерий, а именно семантические особенности ИПЯ. Они выражаются установлением смысловых связей между понятиями или, другими словами, парадигматическими отношениями.
Парадигматические отношения – это отношения между словами, не зависящие от контекста, в котором они используются, и обусловленные наличием не языковых, а логических связей между предметами [2, c. 147]. В теории информационного поиска выделяют следующие основные виды парадигматических отношений:
-
1. Сильные:
-
а) отношения тождества (использование синонимов);
-
б) отношения иерархии (род-вид, часть-целое).
-
2. Слабые (ассоциативные):
-
а) отношения пересечения понятий;
-
б) отношения ассоциации;
-
в) отношения причины – следствия;
-
г) отношения смежности;
-
д) отношения контраста;
-
е) отношения кратности.
Наглядным примером эксплицитного (явного) представления парадигматических отношений являются дескрипторные ИПЯ и, в частности, информационно-поисковые тезаурусы. Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов. Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов [3, с. 68]. В АБИС в качестве дескрипторных ИПЯ широкое распространение получили информационно-поисковые тезаурусы.
Информационно-поисковый тезаурус (ИПТ) - это, прежде всего, словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами [4, с. 48].
Для обеспечения полноты отражения содержания документов и запросов с помощью ИПЯ с целью повышения эффективности информационного поиска в дескрипторном словаре для каждого дескриптора указываются его синонимы, а также родовые, видовые и ассоциативные отношения.
Анализ учета парадигматических отношений ИПЯ в современных ИПС можно проводить, используя специальным образам сформулированные последовательности запросов. Формулировка последовательности таких запросов должна учитывать следующие смысловые связи:
-
1) отношения иерархии (вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее часть);
-
2) отношения тождества (учет синонимов);
-
3) отношения ассоциации.
Для привлечения к анализу математического аппарата целесообразно ввести ряд показателей. Каждый из показателей является функцией вида F = F ( Q , S , N ), где Q - вид запроса, S - информационно-поисковая система, N - объем базы поиска (общее количество документов, среди которых производится поиск). Последняя величина N имеет конечное значение для локальных ИПС, а для глобальных ИПС, работающих в Интернете, считается условно бесконечной. Поэтому для глобальных ИПС учитывать N не имеет смысла, а соответствующие показатели становятся функциями вида F = F ( Q , S ).
Пусть i - уровень запроса в последовательности. Определим последовательность запросов по следующему принципу:
i = 0 - базовый уровень, в котором вводится основное слово (словосочетание), i = 1 - первый уровень (с), в котором вводится синоним к запросу базового уровня, i = 2 - второй уровень (вр), в котором вводится вышестоящее родовое понятие к запросу базового уровня, i = 3 - третий уровень (вц), в котором вводится вышестоящее целое понятие к запросу базового уровня, i = 4 - четвертый уровень (нч), в котором вводится нижестоящее частичное понятие к запросу базового уровня, i = 5 - пятый уровень, в котором вводится нижестоящее видовое понятие к запросу базового уровня (нв), i = 6 - шестой уровень (а), в котором вводится ассоциация к запросу базового уровня.
Введем следующие группы показателей.
-
1. Абсолютные показатели .
-
2. Относительные показатели .
Объем i -ого уровня запроса - количество результатов поиска, то есть документов, выдаваемых на i -ый запрос вида Q ИПС S : а , = а , ( Q , S ).
Абсолютная вариация - разность между объемами i -ого и j -ого уровней:
A j = 4 — A j . (1)
Коэффициент i -ого уровня запроса - отношение объема i -ого уровня к объему базы поиска:
A
Kt = — . (2)
i N
Индекс i -ого и j -ого уровней - отношение объема i -ого уровня к объему j -ого уровня:
Jjj =
A i
. A j
Относительная вариация – отношение соответствующей абсолютной вариации к объему базы поиска:
A
.
Индексная вариация – разность между индексами различных уровней:
V ij; nm
= J - J .
ij nm .
Следует отметить, что индексы (3) и их вариации (5) не зависят от объема базы поиска N . Поэтому их следует использовать для сравнительного анализа глобальных ИПС.
Методика сравнительного анализа выбранной пары ИПС S 1 и S 2 предлагается следующая. В каждой ИПС S 1 и S 2 вводится одна и та же фиксированная последовательность запросов Q . В результате для каждого уровня получаются соответствующие объемы А i ( Q , S 1 ) А i ( Q , S 2 ), i = 0, 1, …, 6. По этим данным для каждого уровня вычисляются наборы показателей выбранного вида (среди выше определенных) F i ( Q , S 1 ) и F i ( Q , S 2 ).
Ясно, что для одинаковых механизмов поиска, реализованных в ИПС S 1 и S 2 , эти показатели на фиксированном уровне мало различаются, то есть разности d i = F i ( Q , S 1 ) – F i ( Q , S 2 ) должны быть близки к нулю. В рассматриваем случае для оценки значимости отличия от нуля такой разности целесообразно использовать парный критерий Стьюдента [5, с. 321].
Экспериментальное значение этого критерия вычисляется по формуле:
n
T = — S d . ' (6)
n a i = 1
где n – количество показателей в ряду, a - среднеквадратическая ошибка, вычисляемая по формуле:
nn
S d - 1 I S d . l . = 1 n I . = 1 )
.
( n - 1)
Согласно методам статистического анализа, экспериментальное значение критерия (6) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента t a ( f), где a - уровень значимости (обычно выбирается пятипроцентный уровень значимости a =0,05), f = n - 1 - число степеней свободы.
Правила принятия решения:
-
1) если | Т | < ta ( f ) , то сравниваемые экспериментальные данные различаются незначи-
- мо, то есть различие между ними носит случайный характер;
-
2) если | T | > t a( f ) , то сравниваемые экспериментальные данные различаются значимо, то есть различие между ними носит закономерный характер.
Рассмотрим пример использования описанной методики. Выберем две глобальных поисковых системы S 1 = {nigma.ru} и S 2 = {ngs.ru}. Последовательность запроса Q формируется с помощью тезауруса: Q 0 = {линейная алгебра}, Q 1 = {алгебра Банаха}, Q 2 = {математическая наука}, Q 3 = {высшая алгебра}, Q 4 = {линейное уравнение}, Q 5 = {матричная алгебра},
Q 6 = {определитель}. В результате проведения запросов в этих ИПС по формуле (3) вычисляются некоторые индексы, которые играют роль величин F i (см.: таблицу 1).
Таблица 1 – Значения индексов
Индексы |
ИПС |
|
S 1 |
S 2 |
|
J 10 |
0,011 |
0,010 |
J 20 |
20,526 |
20,500 |
J 30 |
2,158 |
2,000 |
J 40 |
1,684 |
1,500 |
J 50 |
0,632 |
0,500 |
J 60 |
1,737 |
1,500 |
J 23 |
9,512 |
10,250 |
J 45 |
2,667 |
3,000 |
Для этих данных экспериментальное значение критерия вычисляется по формуле (6): T = 0,355. Количество наблюдений n = 8, тогда число степеней свободs f = 7. Критическая точка двусторонней области распределения Стьюдента для пятипроцентного уровня значимости: 1 0,05 (7) = 2,365. Видно, что выполняется неравенство: | т | = 0,355 < 2,365 = ta ( f ) . Согласно правилам приятия решения это означает, что результаты наблюдений для ИПС S 1 и S 2 различаются незначимо. Другими словами, это показывает, что в ИПС S 1 и S 2 реализован одинаковый механизм поиска, учитывающий семантические особенности.
Из этого примера видно, что предложенный метод может использоваться для сравнительного анализа ИПС на предмет реализации в них семантических особенностей языка. Набор параметров может быть расширен, что уменьшает вероятность совершения ошибки в ходе статистического анализа. Можно убедиться, что для рассмотренных в примере ИПС, другие аналогичные последовательности запросов, формируемые на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведут к такому же выводу о характере их поисковых механизмов.
Ссылки и примечания:
-
1. Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.
-
2. Монастырский И.М. Информационно-поисковые системы. М., 1983.
-
3. Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.
-
4. Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.
-
5. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.
Список литературы Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем
- Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.
- Монастырский И.М. Информационно-поисковые системы. М., 1983.
- Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.
- Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.
- Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.