Метапоисковая мультилингвистическая система
Автор: Карасева Маргарита Владимировна, Карцан Игорь Николаевич, Зеленков Павел Викторович
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 3 (16), 2007 года.
Бесплатный доступ
Рассматриваются метапоисковые принципы организации поисковых процедур, обеспечивающих надлежащий уровень релевантности информации и ранжирования ее в соответствии с запросом пользователя. Представлена реализация метапоисковой мультилингвистической системы «Zendex».
Короткий адрес: https://sciup.org/148175561
IDR: 148175561
Текст научной статьи Метапоисковая мультилингвистическая система
В настоящее время классические поисковые сервисы сталкиваются с проблемой постоянного увеличения объемов информации в сети Internet и недостаточностью охвата данного информационного пространства [1]. Также большинство современных систем поиска сталкиваются с проблемой определения уровня релевантности найденной информации. Самых высоких показателей в этом направлении позволяет достичь «ручной» просмотр содержания страницы или сайта человеком, что можно увидеть на примере поисковых систем-каталогов. Третья проблема связана с организацией выдачи информации пользователю с учетом его требования (ранжирование информации).
Таким образом, при создании собственных поисковых систем перед разработчиками встают следующие задачи: охват максимального сегмента сети Internet, обеспечение надлежащего уровня релевантности найденной информации и ранжирования ее в соответствии с запросом пользователя. Авторы предлагают использовать ме-тапоискавые принципы организации поисковой процедуры [2]. В качестве иллюстрации авторского подхода рассматривается метапоисковая мультилингвистическая система «Zendex».
Для начала работы необходимо выбрать одну из поисковых систем (по предпочтению пользователя). На текущий момент времени в «Zendex» реализована работа с тремя подобными системами: Yandex, Rambler и Google.
Однако система позволяет расширить количество опрашиваемых поисковых сервисов. Система обеспечивает использование как одного, двух, так и сразу всех поисковых сайтов. Для выбора операции поиска сразу во всех поисковых сайтах необходимо перейти на закладку «Везде». В этом случае будут последовательно опрашиваться все поисковые web-службы, а результат будет выводиться в привычном постраничном формате. Чтобы приступить к поиску, нужно ввести строку запроса в поле поиска и нажать клавишу «Enter» или кнопку «Найти».
Если по запросу информация будет найдена, то она отобразится в окне. Если в процессе поиска произойдет ошибка, будет выведено соответствующее сообщение на странице ошибок с указанием номера, типа и причины ошибки. Если же ни одного документа найдено не было, появится соответствующее сообщение. Несмотря на то, что система имеет простой интерфейс, предусмотрена расширенная алгоритмическая реализация по сравнению с классическими метапоисковыми сервисами.
В предлагаемой авторами технологии основой работы системы являются мультилингвистические тематические частотные словари [3]. Данные словари позволяют повысить качество определения релевантности документов запросам пользователя. Словари позволяют выделить направленность документа, вплоть до определения рубрики (предметной области), к которой принадлежит документ. Качество определения уровня релевантности в
Математика, механика, информатика предлагаемом решении соответствует уровню релевантности в каталожных системах ручной индексации.
В результате выполнения поисковой процедуры согласно алгоритму определения релевантности формируются вектора частот, определяющийся по формулам: d oc j = ( wdoc ij , wdoc 2 j ,..., wdoc qj ) ,
^ij = (wdic^, wdic 2,..., wdick), где вектор doc. относится к терминам из документа, а die. - к терминам из частотного мультилингвитического словаря; wdic. и wdoc..- частотные характеристики термов в словаре и документе соответственно.
Далее вектора приводятся к одной размерности по принципу встречаемости термов в обоих векторах. После приведения векторов к одной размерности е и упорядочивания их в порядке принадлежности к одному термину, необходимо составить вектор с:
q = ( rel 1 jrel 2 j , ... ,relej ), где rel . - уровень релевантности документа, который можно определить следующим образом:
relij =
wdocij - wdici wdocij + wdici
После упорядочивания вектора с получим уровень релевантности каждого документа требуемой предметной области. Таким образом, могут быть реализованы упрощенные алгоритмы определения уровня релевантности. При выводе документов пользователя необходимо провести сортировку по вектору с.
К достоинствам системы можно отнести следующие
Использование частотного словаря позволяет производить поиск сразу на нескольких языках, например русском, английском и немецком.
Реализация метопоисковых принципов позволяет охватывать индексы трех самых популярных поисковых web-служб -Яндекс, Google, Rambler.
Реализация независимой от внешнего web-сервера проверки релевантности позволяет сократить объем нерелевантных ссылок в результатах поиска и существенно повысить качество обработки запросов пользователя.
Применение алгоритмов, базирующихся на частотных словарях, позволяет повысить степень релевантности документов запросу пользователя, а также уменьшить объем трафика пользователя при формировании собственной базы релевантных документов.