Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем

Автор: Савотченко Сергей Евгеньевич, Логинова Елена Александровна

Журнал: Теория и практика общественного развития @teoria-practica

Рубрика: Педагогические науки

Статья в выпуске: 6, 2012 года.

Бесплатный доступ

В статье предложен метод сравнительного анализа информационно-поисковых систем на предмет реализации в них семантических особенностей языка. Актуальность статьи связана с проблемой оптимизации работы информационно-поисковых систем. Новизна работы заключается в определении ряда показателей, характеризующих учет парадигматических отношений.

Информационный поиск, лингвистическое обеспечение, информационно-поисковый язык, парадигматические отношения, синонимия, омонимия, род - вид, часть - целое, ассоциация

Короткий адрес: https://sciup.org/14934443

IDR: 14934443

Текст научной статьи Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем

Современные информационно-поисковые системы (ИПС) предназначены для быстрого поиска документов, удовлетворяющих запросам пользователей. Необходимая предпосылка качества информационного поиска - качество лингвистического обеспечения ИПС. Лингвистическое обеспечение, как правило, включает в себя информационно-поисковые языки (ИПЯ), методов индексирования, средства разработки и ведения информационно-поисковых языков.

Качество ИПС можно определить по трем критериям: глубине (или полноте), точности и нормализованному языку понятий, то есть унифицированному, приведенному к стандартной форме. Мы рассмотрим последний критерий, а именно семантические особенности ИПЯ. Они выражаются установлением смысловых связей между понятиями или, другими словами, парадигматическими отношениями.

Парадигматические отношения – это отношения между словами, не зависящие от контекста, в котором они используются, и обусловленные наличием не языковых, а логических связей между предметами [2, c. 147]. В теории информационного поиска выделяют следующие основные виды парадигматических отношений:

  • 1.    Сильные:

  • а)    отношения тождества (использование синонимов);

  • б)    отношения иерархии (род-вид, часть-целое).

  • 2.    Слабые (ассоциативные):

  • а)    отношения пересечения понятий;

  • б)    отношения ассоциации;

  • в)    отношения причины – следствия;

  • г)    отношения смежности;

  • д)    отношения контраста;

  • е)    отношения кратности.

Наглядным примером эксплицитного (явного) представления парадигматических отношений являются дескрипторные ИПЯ и, в частности, информационно-поисковые тезаурусы. Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов. Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов [3, с. 68]. В АБИС в качестве дескрипторных ИПЯ широкое распространение получили информационно-поисковые тезаурусы.

Информационно-поисковый тезаурус (ИПТ) - это, прежде всего, словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами [4, с. 48].

Для обеспечения полноты отражения содержания документов и запросов с помощью ИПЯ с целью повышения эффективности информационного поиска в дескрипторном словаре для каждого дескриптора указываются его синонимы, а также родовые, видовые и ассоциативные отношения.

Анализ учета парадигматических отношений ИПЯ в современных ИПС можно проводить, используя специальным образам сформулированные последовательности запросов. Формулировка последовательности таких запросов должна учитывать следующие смысловые связи:

  • 1)    отношения иерархии (вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее часть);

  • 2)    отношения тождества (учет синонимов);

  • 3)    отношения ассоциации.

Для привлечения к анализу математического аппарата целесообразно ввести ряд показателей. Каждый из показателей является функцией вида F = F ( Q , S , N ), где Q - вид запроса, S - информационно-поисковая система, N - объем базы поиска (общее количество документов, среди которых производится поиск). Последняя величина N имеет конечное значение для локальных ИПС, а для глобальных ИПС, работающих в Интернете, считается условно бесконечной. Поэтому для глобальных ИПС учитывать N не имеет смысла, а соответствующие показатели становятся функциями вида F = F ( Q , S ).

Пусть i - уровень запроса в последовательности. Определим последовательность запросов по следующему принципу:

i = 0 - базовый уровень, в котором вводится основное слово (словосочетание), i = 1 - первый уровень (с), в котором вводится синоним к запросу базового уровня, i = 2 - второй уровень (вр), в котором вводится вышестоящее родовое понятие к запросу базового уровня, i = 3 - третий уровень (вц), в котором вводится вышестоящее целое понятие к запросу базового уровня, i = 4 - четвертый уровень (нч), в котором вводится нижестоящее частичное понятие к запросу базового уровня, i = 5 - пятый уровень, в котором вводится нижестоящее видовое понятие к запросу базового уровня (нв), i = 6 - шестой уровень (а), в котором вводится ассоциация к запросу базового уровня.

Введем следующие группы показателей.

  • 1.    Абсолютные показатели .

  • 2.    Относительные показатели .

Объем i -ого уровня запроса - количество результатов поиска, то есть документов, выдаваемых на i -ый запрос вида Q ИПС S : а , = а , ( Q , S ).

Абсолютная вариация - разность между объемами i -ого и j -ого уровней:

A j = 4 — A j .                                      (1)

Коэффициент i -ого уровня запроса - отношение объема i -ого уровня к объему базы поиска:

A

Kt = — .                                         (2)

i N

Индекс i -ого и j -ого уровней - отношение объема i -ого уровня к объему j -ого уровня:

Jjj =

A i

. A j

Относительная вариация – отношение соответствующей абсолютной вариации к объему базы поиска:

A

.

Индексная вариация – разность между индексами различных уровней:

V ij; nm

= J - J .

ij       nm .

Следует отметить, что индексы (3) и их вариации (5) не зависят от объема базы поиска N . Поэтому их следует использовать для сравнительного анализа глобальных ИПС.

Методика сравнительного анализа выбранной пары ИПС S 1 и S 2 предлагается следующая. В каждой ИПС S 1 и S 2 вводится одна и та же фиксированная последовательность запросов Q . В результате для каждого уровня получаются соответствующие объемы А i ( Q , S 1 ) А i ( Q , S 2 ), i = 0, 1, …, 6. По этим данным для каждого уровня вычисляются наборы показателей выбранного вида (среди выше определенных) F i ( Q , S 1 ) и F i ( Q , S 2 ).

Ясно, что для одинаковых механизмов поиска, реализованных в ИПС S 1 и S 2 , эти показатели на фиксированном уровне мало различаются, то есть разности d i = F i ( Q , S 1 ) – F i ( Q , S 2 ) должны быть близки к нулю. В рассматриваем случае для оценки значимости отличия от нуля такой разности целесообразно использовать парный критерий Стьюдента [5, с. 321].

Экспериментальное значение этого критерия вычисляется по формуле:

n

T = — S d . '                        (6)

n a i = 1

где n – количество показателей в ряду, a - среднеквадратическая ошибка, вычисляемая по формуле:

nn

S d - 1 I S d . l . = 1          n I . = 1 )

.

( n - 1)

Согласно методам статистического анализа, экспериментальное значение критерия (6) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента t a ( f), где a - уровень значимости (обычно выбирается пятипроцентный уровень значимости a =0,05), f = n - 1 - число степеней свободы.

Правила принятия решения:

  • 1)    если | Т | <  ta ( f ) , то сравниваемые экспериментальные данные различаются незначи-

  • мо, то есть различие между ними носит случайный характер;
  • 2)    если | T | >  t a( f ) , то сравниваемые экспериментальные данные различаются значимо, то есть различие между ними носит закономерный характер.

Рассмотрим пример использования описанной методики. Выберем две глобальных поисковых системы S 1 = {nigma.ru} и S 2 = {ngs.ru}. Последовательность запроса Q формируется с помощью тезауруса: Q 0 = {линейная алгебра}, Q 1 = {алгебра Банаха}, Q 2 = {математическая наука}, Q 3 = {высшая алгебра},   Q 4 = {линейное уравнение}, Q 5 = {матричная алгебра},

Q 6 = {определитель}. В результате проведения запросов в этих ИПС по формуле (3) вычисляются некоторые индексы, которые играют роль величин F i (см.: таблицу 1).

Таблица 1 – Значения индексов

Индексы

ИПС

S 1

S 2

J 10

0,011

0,010

J 20

20,526

20,500

J 30

2,158

2,000

J 40

1,684

1,500

J 50

0,632

0,500

J 60

1,737

1,500

J 23

9,512

10,250

J 45

2,667

3,000

Для этих данных экспериментальное значение критерия вычисляется по формуле (6): T = 0,355. Количество наблюдений n = 8, тогда число степеней свободs f = 7. Критическая точка двусторонней области распределения Стьюдента для пятипроцентного уровня значимости: 1 0,05 (7) = 2,365. Видно, что выполняется неравенство: | т | = 0,355 2,365 = ta ( f ) . Согласно правилам приятия решения это означает, что результаты наблюдений для ИПС S 1 и S 2 различаются незначимо. Другими словами, это показывает, что в ИПС S 1 и S 2 реализован одинаковый механизм поиска, учитывающий семантические особенности.

Из этого примера видно, что предложенный метод может использоваться для сравнительного анализа ИПС на предмет реализации в них семантических особенностей языка. Набор параметров может быть расширен, что уменьшает вероятность совершения ошибки в ходе статистического анализа. Можно убедиться, что для рассмотренных в примере ИПС, другие аналогичные последовательности запросов, формируемые на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведут к такому же выводу о характере их поисковых механизмов.

Ссылки и примечания:

  • 1.    Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.

  • 2.    Монастырский И.М. Информационно-поисковые системы. М., 1983.

  • 3.    Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.

  • 4.    Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.

  • 5.    Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.

Список литературы Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем

  • Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.
  • Монастырский И.М. Информационно-поисковые системы. М., 1983.
  • Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.
  • Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.
  • Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.
Статья научная