Научные статьи \ Язык. Языкознание. Лингвистика. Литература \ Языкознание и языки. Лингвистика

Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем

Автор: Савотченко Сергей Евгеньевич, Логинова Елена Александровна

Журнал: Теория и практика общественного развития @teoria-practica

Статья в выпуске: 6, 2012 года.

Бесплатный доступ

В статье предложен метод сравнительного анализа информационно-поисковых систем на предмет реализации в них семантических особенностей языка. Актуальность статьи связана с проблемой оптимизации работы информационно-поисковых систем. Новизна работы заключается в определении ряда показателей, характеризующих учет парадигматических отношений.

Информационный поиск, лингвистическое обеспечение, информационно-поисковый язык, парадигматические отношения, синонимия, омонимия, род - вид, часть - целое, ассоциация

Короткий адрес: https://sciup.org/14934443

IDR: 14934443 | УДК: 811.93

Текст научной статьи Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем

Современные информационно-поисковые системы (ИПС) предназначены для быстрого поиска документов, удовлетворяющих запросам пользователей. Необходимая предпосылка качества информационного поиска - качество лингвистического обеспечения ИПС. Лингвистическое обеспечение, как правило, включает в себя информационно-поисковые языки (ИПЯ), методов индексирования, средства разработки и ведения информационно-поисковых языков.

Качество ИПС можно определить по трем критериям: глубине (или полноте), точности и нормализованному языку понятий, то есть унифицированному, приведенному к стандартной форме. Мы рассмотрим последний критерий, а именно семантические особенности ИПЯ. Они выражаются установлением смысловых связей между понятиями или, другими словами, парадигматическими отношениями.

Парадигматические отношения – это отношения между словами, не зависящие от контекста, в котором они используются, и обусловленные наличием не языковых, а логических связей между предметами [2, c. 147]. В теории информационного поиска выделяют следующие основные виды парадигматических отношений:

1. Сильные:

а) отношения тождества (использование синонимов);
б) отношения иерархии (род-вид, часть-целое).
2. Слабые (ассоциативные):

а) отношения пересечения понятий;
б) отношения ассоциации;
в) отношения причины – следствия;
г) отношения смежности;
д) отношения контраста;
е) отношения кратности.

Наглядным примером эксплицитного (явного) представления парадигматических отношений являются дескрипторные ИПЯ и, в частности, информационно-поисковые тезаурусы. Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов. Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов [3, с. 68]. В АБИС в качестве дескрипторных ИПЯ широкое распространение получили информационно-поисковые тезаурусы.

Информационно-поисковый тезаурус (ИПТ) - это, прежде всего, словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами [4, с. 48].

Для обеспечения полноты отражения содержания документов и запросов с помощью ИПЯ с целью повышения эффективности информационного поиска в дескрипторном словаре для каждого дескриптора указываются его синонимы, а также родовые, видовые и ассоциативные отношения.

Анализ учета парадигматических отношений ИПЯ в современных ИПС можно проводить, используя специальным образам сформулированные последовательности запросов. Формулировка последовательности таких запросов должна учитывать следующие смысловые связи:

1) отношения иерархии (вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее часть);
2) отношения тождества (учет синонимов);
3) отношения ассоциации.

Для привлечения к анализу математического аппарата целесообразно ввести ряд показателей. Каждый из показателей является функцией вида F = F ( Q , S , N ), где Q - вид запроса, S - информационно-поисковая система, N - объем базы поиска (общее количество документов, среди которых производится поиск). Последняя величина N имеет конечное значение для локальных ИПС, а для глобальных ИПС, работающих в Интернете, считается условно бесконечной. Поэтому для глобальных ИПС учитывать N не имеет смысла, а соответствующие показатели становятся функциями вида F = F ( Q , S ).

Пусть i - уровень запроса в последовательности. Определим последовательность запросов по следующему принципу:

i = 0 - базовый уровень, в котором вводится основное слово (словосочетание), i = 1 - первый уровень (с), в котором вводится синоним к запросу базового уровня, i = 2 - второй уровень (вр), в котором вводится вышестоящее родовое понятие к запросу базового уровня, i = 3 - третий уровень (вц), в котором вводится вышестоящее целое понятие к запросу базового уровня, i = 4 - четвертый уровень (нч), в котором вводится нижестоящее частичное понятие к запросу базового уровня, i = 5 - пятый уровень, в котором вводится нижестоящее видовое понятие к запросу базового уровня (нв), i = 6 - шестой уровень (а), в котором вводится ассоциация к запросу базового уровня.

Введем следующие группы показателей.

1. Абсолютные показатели .
2. Относительные показатели .

Объем i -ого уровня запроса - количество результатов поиска, то есть документов, выдаваемых на i -ый запрос вида Q ИПС S : а , = а , ( Q , S ).

Абсолютная вариация - разность между объемами i -ого и j -ого уровней:

A j = 4 — A j . (1)

Коэффициент i -ого уровня запроса - отношение объема i -ого уровня к объему базы поиска:

K_t = — . (2)

i _N

Индекс i -ого и j -ого уровней - отношение объема i -ого уровня к объему j -ого уровня:

Jjj =

A i

. A j

Относительная вариация – отношение соответствующей абсолютной вариации к объему базы поиска:

Индексная вариация – разность между индексами различных уровней:

V ij; nm

= J - J .

ij nm .

Следует отметить, что индексы (3) и их вариации (5) не зависят от объема базы поиска N . Поэтому их следует использовать для сравнительного анализа глобальных ИПС.

Методика сравнительного анализа выбранной пары ИПС S 1 и S 2 предлагается следующая. В каждой ИПС S 1 и S 2 вводится одна и та же фиксированная последовательность запросов Q . В результате для каждого уровня получаются соответствующие объемы А i ( Q , S 1 ) А i ( Q , S 2 ), i = 0, 1, …, 6. По этим данным для каждого уровня вычисляются наборы показателей выбранного вида (среди выше определенных) F i ( Q , S 1 ) и F i ( Q , S 2 ).

Ясно, что для одинаковых механизмов поиска, реализованных в ИПС S 1 и S 2 , эти показатели на фиксированном уровне мало различаются, то есть разности d i = F i ( Q , S 1 ) – F i ( Q , S 2 ) должны быть близки к нулю. В рассматриваем случае для оценки значимости отличия от нуля такой разности целесообразно использовать парный критерий Стьюдента [5, с. 321].

Экспериментальное значение этого критерия вычисляется по формуле:

T = — S d . ' (6)

n a i = 1

где n – количество показателей в ряду, a - среднеквадратическая ошибка, вычисляемая по формуле:

S d - ¹ I S d . l . = 1 n I . = 1 )

( n - 1)

Согласно методам статистического анализа, экспериментальное значение критерия (6) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента t _a ( f), где a - уровень значимости (обычно выбирается пятипроцентный уровень значимости a =0,05), f = n - 1 - число степеней свободы.

Правила принятия решения:

1) если | Т | < t_a ( f ) , то сравниваемые экспериментальные данные различаются незначи-
мо, то есть различие между ними носит случайный характер;

2) если | T | > t _a( f ) , то сравниваемые экспериментальные данные различаются значимо, то есть различие между ними носит закономерный характер.

Рассмотрим пример использования описанной методики. Выберем две глобальных поисковых системы S 1 = {nigma.ru} и S 2 = {ngs.ru}. Последовательность запроса Q формируется с помощью тезауруса: Q 0 = {линейная алгебра}, Q 1 = {алгебра Банаха}, Q 2 = {математическая наука}, Q 3 = {высшая алгебра}, Q 4 = {линейное уравнение}, Q 5 = {матричная алгебра},

Q 6 = {определитель}. В результате проведения запросов в этих ИПС по формуле (3) вычисляются некоторые индексы, которые играют роль величин F i (см.: таблицу 1).

Таблица 1 – Значения индексов

Индексы	ИПС
Индексы	S 1	S 2
J 10	0,011	0,010
J 20	20,526	20,500
J 30	2,158	2,000
J 40	1,684	1,500
J 50	0,632	0,500
J 60	1,737	1,500
J 23	9,512	10,250
J 45	2,667	3,000

Для этих данных экспериментальное значение критерия вычисляется по формуле (6): T = 0,355. Количество наблюдений n = 8, тогда число степеней свободs f = 7. Критическая точка двусторонней области распределения Стьюдента для пятипроцентного уровня значимости: 1 0,05 (7) = 2,365. Видно, что выполняется неравенство: | т | = 0,355 < 2,365 = t_a ( f ) . Согласно правилам приятия решения это означает, что результаты наблюдений для ИПС S 1 и S 2 различаются незначимо. Другими словами, это показывает, что в ИПС S 1 и S 2 реализован одинаковый механизм поиска, учитывающий семантические особенности.

Из этого примера видно, что предложенный метод может использоваться для сравнительного анализа ИПС на предмет реализации в них семантических особенностей языка. Набор параметров может быть расширен, что уменьшает вероятность совершения ошибки в ходе статистического анализа. Можно убедиться, что для рассмотренных в примере ИПС, другие аналогичные последовательности запросов, формируемые на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведут к такому же выводу о характере их поисковых механизмов.

Ссылки и примечания:

1. Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.
2. Монастырский И.М. Информационно-поисковые системы. М., 1983.
3. Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.
4. Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.
5. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.

Список литературы Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем

Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.
Монастырский И.М. Информационно-поисковые системы. М., 1983.
Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.
Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.
Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.