Обзор методов глобального полнотекстового поиска

Автор: Силаев К.О., Силаева А.Н.

Журнал: Экономика и социум @ekonomika-socium

Рубрика: Информационные и коммуникативные технологии

Статья в выпуске: 3 (34), 2017 года.

Бесплатный доступ

Приводится обзор информационно - поисковых систем, обеспечивающих быстрый поиск и обработку распределенных данных. Обосновывается выбор определенной системы.

Информационно - поисковая система, быстрый поиск, выборка данных, поисковый индекс

Короткий адрес: https://sciup.org/140122772

IDR: 140122772

Текст научной статьи Обзор методов глобального полнотекстового поиска

В ходе исследовательских мероприятий планируется решить определенную задачу. Эта задача состоит в создании индексов для быстрого поиска и обработки распределенных данных для создания сервисов и языков управления рабочим потоком распределенных вычислений, которые оптимизированы по использованию памяти и ресурсов локального диска и отказоустойчивы при работе с большими объемами данных, при этом позволяют кэшировать промежуточные результаты.

Для решения задачи необходимо создание полнотекстового поиска, то есть автоматизированного поиска документов, при котором поиск ведётся не по именам документов, а по их содержимому.

Из всего множества систем выделим информационно-поисковые системы (системы выборки данных) и информационно-поисковые системы строящие поисковый индекс.

Существующие информационные системы, работающие с электронными тестовыми документами, можно условно разделить на две категории:

  •    информационно-поисковые системы (information retrieval systems);

  •    системы выборки данных (data retrieval systems).

Такое разделение условно, так как многие современные информационные системы совмещают в себе свойства, как систем выборки данных, так и информационно-поисковых систем.

Основные отличия информационно-поисковых систем от систем выборки данных, представленных в таблице 1.

Информационно

поисковые системы

Системы выборки данных

Соответствие  данных

поисковому запросу

частичное

точное

Классификация документов

вероятностная

детерминированная

Язык запросов

естественный

искусственный

Критерии    выборки

документов

вероятностная функция релевантности

булева функция релевантности

Устойчивость к ошибкам в данных и запросах

устойчивы

неустойчивы

Реляционные СУБД являются классическим примером систем выборки данных, где в качестве языка запросов используется тот или иной диалект языка запросов SQL. Язык SQL искусствен и позволяет задавать поисковые запросы лишь для поиска на точное соответствие или поиска по заданному шаблону.

Современные системы выборки данных обеспечивают надёжное и эффективное хранение данных, а также обладают высокой скоростью выполнения поисковых запросов пользователей. А информационнопоисковые системы предназначены для решения более общей задачи поиска, чем поиск на точное соответствие, и где конечной целью поиска является выбор релевантной поисковому запросу информации, степень релевантности которой можно определить как степень её смысловой близости к поисковому запросу, а это в свою очередь ведёт к тому что поисковые запросы в такого рода системах должны быть основаны на естественном языке, т.е. на том же языке в котором сформулирована исходная информация.

И системы выборки данных и информационно поисковые системы, работают с некоторой коллекцией документов. Исходную коллекцию документов можно рассматривать как список записей, то есть документов, где каждая запись содержит в себе некоторый список слов, состоящих из символов алфавита.

В современных информационных системах в исходном множестве документов может содержаться дополнительная информация, описывающая документы, которая так же может использоваться, для осуществления поиска.

Большинство современных информационно-поисковых систем, для осуществления поиска строят на основе исходной информации, логические и физические структуры данных, представляющие собой поисковый индекс, который позволяет реализовать некоторую заданную модель информационного поиска. Преобразование информации в информационно -поисковых системах, строящих поисковый индекс, обычно состоит из следующих базовых этапов:

  • 3)    Преобразование поисковых запросов в формат, позволяющий использовать поисковый индекс для вычисления функции релевантность запросов и документов и выборки релевантных запросу документов.

При обработке информации и построении поискового индекса потенциально можно использовать достаточно широкий спектр методов анализа текстовой информации документов, как например методы статистического, семантического, синтаксического и лингвистического анализа текста. Однако методы, анализирующие семантику и синтаксис текстовой информации, вплоть до настоящего времени не получили широкого распространения ввиду своей сложности и относительно низкой эффективности. Наибольшее распространение получили методы, использующие статистический анализ документов.

На данном этапе исследовательской работы было принято решение остановить свой выбор на информационно-поисковой системе, позволяющей использовать поисковый индекс.

«Экономика и социум» №3(34) 2017