Метапоисковая мультилингвистическая система

Автор: Карасева Маргарита Владимировна, Карцан Игорь Николаевич, Зеленков Павел Викторович

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 3 (16), 2007 года.

Бесплатный доступ

Рассматриваются метапоисковые принципы организации поисковых процедур, обеспечивающих надлежащий уровень релевантности информации и ранжирования ее в соответствии с запросом пользователя. Представлена реализация метапоисковой мультилингвистической системы «Zendex».

Короткий адрес: https://sciup.org/148175561

IDR: 148175561

Текст научной статьи Метапоисковая мультилингвистическая система

В настоящее время классические поисковые сервисы сталкиваются с проблемой постоянного увеличения объемов информации в сети Internet и недостаточностью охвата данного информационного пространства [1]. Также большинство современных систем поиска сталкиваются с проблемой определения уровня релевантности найденной информации. Самых высоких показателей в этом направлении позволяет достичь «ручной» просмотр содержания страницы или сайта человеком, что можно увидеть на примере поисковых систем-каталогов. Третья проблема связана с организацией выдачи информации пользователю с учетом его требования (ранжирование информации).

Таким образом, при создании собственных поисковых систем перед разработчиками встают следующие задачи: охват максимального сегмента сети Internet, обеспечение надлежащего уровня релевантности найденной информации и ранжирования ее в соответствии с запросом пользователя. Авторы предлагают использовать ме-тапоискавые принципы организации поисковой процедуры [2]. В качестве иллюстрации авторского подхода рассматривается метапоисковая мультилингвистическая система «Zendex».

Для начала работы необходимо выбрать одну из поисковых систем (по предпочтению пользователя). На текущий момент времени в «Zendex» реализована работа с тремя подобными системами: Yandex, Rambler и Google.

Однако система позволяет расширить количество опрашиваемых поисковых сервисов. Система обеспечивает использование как одного, двух, так и сразу всех поисковых сайтов. Для выбора операции поиска сразу во всех поисковых сайтах необходимо перейти на закладку «Везде». В этом случае будут последовательно опрашиваться все поисковые web-службы, а результат будет выводиться в привычном постраничном формате. Чтобы приступить к поиску, нужно ввести строку запроса в поле поиска и нажать клавишу «Enter» или кнопку «Найти».

Если по запросу информация будет найдена, то она отобразится в окне. Если в процессе поиска произойдет ошибка, будет выведено соответствующее сообщение на странице ошибок с указанием номера, типа и причины ошибки. Если же ни одного документа найдено не было, появится соответствующее сообщение. Несмотря на то, что система имеет простой интерфейс, предусмотрена расширенная алгоритмическая реализация по сравнению с классическими метапоисковыми сервисами.

В предлагаемой авторами технологии основой работы системы являются мультилингвистические тематические частотные словари [3]. Данные словари позволяют повысить качество определения релевантности документов запросам пользователя. Словари позволяют выделить направленность документа, вплоть до определения рубрики (предметной области), к которой принадлежит документ. Качество определения уровня релевантности в

Математика, механика, информатика предлагаемом решении соответствует уровню релевантности в каталожных системах ручной индексации.

В результате выполнения поисковой процедуры согласно алгоритму определения релевантности формируются вектора частот, определяющийся по формулам: d oc j = ( wdoc ij , wdoc 2 j ,..., wdoc qj ) ,

^ij = (wdic^, wdic 2,..., wdick), где вектор doc. относится к терминам из документа, а die. - к терминам из частотного мультилингвитического словаря; wdic. и wdoc..- частотные характеристики термов в словаре и документе соответственно.

Далее вектора приводятся к одной размерности по принципу встречаемости термов в обоих векторах. После приведения векторов к одной размерности е и упорядочивания их в порядке принадлежности к одному термину, необходимо составить вектор с:

q = ( rel 1 jrel 2 j , ... ,relej ), где rel . - уровень релевантности документа, который можно определить следующим образом:

relij =

wdocij - wdici wdocij + wdici

После упорядочивания вектора с получим уровень релевантности каждого документа требуемой предметной области. Таким образом, могут быть реализованы упрощенные алгоритмы определения уровня релевантности. При выводе документов пользователя необходимо провести сортировку по вектору с.

К достоинствам системы можно отнести следующие

Использование частотного словаря позволяет производить поиск сразу на нескольких языках, например русском, английском и немецком.

Реализация метопоисковых принципов позволяет охватывать индексы трех самых популярных поисковых web-служб -Яндекс, Google, Rambler.

Реализация независимой от внешнего web-сервера проверки релевантности позволяет сократить объем нерелевантных ссылок в результатах поиска и существенно повысить качество обработки запросов пользователя.

Применение алгоритмов, базирующихся на частотных словарях, позволяет повысить степень релевантности документов запросу пользователя, а также уменьшить объем трафика пользователя при формировании собственной базы релевантных документов.

Статья научная