Обзор методов глобального полнотекстового поиска
Автор: Силаев К.О., Силаева А.Н.
Журнал: Экономика и социум @ekonomika-socium
Рубрика: Информационные и коммуникативные технологии
Статья в выпуске: 3 (34), 2017 года.
Бесплатный доступ
Приводится обзор информационно - поисковых систем, обеспечивающих быстрый поиск и обработку распределенных данных. Обосновывается выбор определенной системы.
Информационно - поисковая система, быстрый поиск, выборка данных, поисковый индекс
Короткий адрес: https://sciup.org/140122772
IDR: 140122772
Текст научной статьи Обзор методов глобального полнотекстового поиска
В ходе исследовательских мероприятий планируется решить определенную задачу. Эта задача состоит в создании индексов для быстрого поиска и обработки распределенных данных для создания сервисов и языков управления рабочим потоком распределенных вычислений, которые оптимизированы по использованию памяти и ресурсов локального диска и отказоустойчивы при работе с большими объемами данных, при этом позволяют кэшировать промежуточные результаты.
Для решения задачи необходимо создание полнотекстового поиска, то есть автоматизированного поиска документов, при котором поиск ведётся не по именам документов, а по их содержимому.
Из всего множества систем выделим информационно-поисковые системы (системы выборки данных) и информационно-поисковые системы строящие поисковый индекс.
Существующие информационные системы, работающие с электронными тестовыми документами, можно условно разделить на две категории:
-
• информационно-поисковые системы (information retrieval systems);
-
• системы выборки данных (data retrieval systems).
Такое разделение условно, так как многие современные информационные системы совмещают в себе свойства, как систем выборки данных, так и информационно-поисковых систем.
Основные отличия информационно-поисковых систем от систем выборки данных, представленных в таблице 1.
Информационно поисковые системы |
Системы выборки данных |
|
Соответствие данных поисковому запросу |
частичное |
точное |
Классификация документов |
вероятностная |
детерминированная |
Язык запросов |
естественный |
искусственный |
Критерии выборки документов |
вероятностная функция релевантности |
булева функция релевантности |
Устойчивость к ошибкам в данных и запросах |
устойчивы |
неустойчивы |
Реляционные СУБД являются классическим примером систем выборки данных, где в качестве языка запросов используется тот или иной диалект языка запросов SQL. Язык SQL искусствен и позволяет задавать поисковые запросы лишь для поиска на точное соответствие или поиска по заданному шаблону.
Современные системы выборки данных обеспечивают надёжное и эффективное хранение данных, а также обладают высокой скоростью выполнения поисковых запросов пользователей. А информационнопоисковые системы предназначены для решения более общей задачи поиска, чем поиск на точное соответствие, и где конечной целью поиска является выбор релевантной поисковому запросу информации, степень релевантности которой можно определить как степень её смысловой близости к поисковому запросу, а это в свою очередь ведёт к тому что поисковые запросы в такого рода системах должны быть основаны на естественном языке, т.е. на том же языке в котором сформулирована исходная информация.
И системы выборки данных и информационно поисковые системы, работают с некоторой коллекцией документов. Исходную коллекцию документов можно рассматривать как список записей, то есть документов, где каждая запись содержит в себе некоторый список слов, состоящих из символов алфавита.
В современных информационных системах в исходном множестве документов может содержаться дополнительная информация, описывающая документы, которая так же может использоваться, для осуществления поиска.
Большинство современных информационно-поисковых систем, для осуществления поиска строят на основе исходной информации, логические и физические структуры данных, представляющие собой поисковый индекс, который позволяет реализовать некоторую заданную модель информационного поиска. Преобразование информации в информационно -поисковых системах, строящих поисковый индекс, обычно состоит из следующих базовых этапов:
-
3) Преобразование поисковых запросов в формат, позволяющий использовать поисковый индекс для вычисления функции релевантность запросов и документов и выборки релевантных запросу документов.
При обработке информации и построении поискового индекса потенциально можно использовать достаточно широкий спектр методов анализа текстовой информации документов, как например методы статистического, семантического, синтаксического и лингвистического анализа текста. Однако методы, анализирующие семантику и синтаксис текстовой информации, вплоть до настоящего времени не получили широкого распространения ввиду своей сложности и относительно низкой эффективности. Наибольшее распространение получили методы, использующие статистический анализ документов.
На данном этапе исследовательской работы было принято решение остановить свой выбор на информационно-поисковой системе, позволяющей использовать поисковый индекс.
«Экономика и социум» №3(34) 2017