Система обработки узкоспециализированной информации в корпоративных сетях

Автор: Зеленков Павел Викторович, Брезицкая Валерия Витальевна, Карасева Маргарита Владимировна, Хохлов Аркадий Пантелеймонович

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 2 (23), 2009 года.

Бесплатный доступ

Предложена новая структура системы формирования и управления узкоспециализированной информацией в корпоративных системах. Основная отличительная особенность данной структуры состоит том, что она предполагает обработку мультилингвистической информации в рамках одного пользовательского запроса.

Многоагентная система, метапоиск, узкоспециализированная информация, корпоративная система

Короткий адрес: https://sciup.org/148175867

IDR: 148175867

Текст научной статьи Система обработки узкоспециализированной информации в корпоративных сетях

В настоящее время идет активное развитие информационных технологий. Одним из самых актуальных вопросов при применении данных технологий является вопрос сбора, обработки и управления информацией [1; 2]. Все более существенное место в науке и образовании занимают компьютерные информационно-поисковые системы, особенно Интернет, являющийся обширным справочным инструментом. Развитие интернет-технологий способствует тому, что ежедневно увеличивается количество информационных ресурсов, предоставленных для открытого доступа, растет объем тематико-ориентированной информации по различным предметным областям.

Расширение глобальной сети и возможностей подключения к ней обусловили существенное увеличение числа ее пользователей. При этом большая часть пользователей русскоязычного сегмента Интернета при сборе информации использует существующие поисковые сервисы общего назначения. По данным на ноябрь 2008 г., наибольшую популярность имеют следующие информационно-поисковые сервисы: Yandex, Google, Mail, Rambler, на долю которых приходится 95 % пользовательских запросов (рис. 1).

Рис. 1. Доля поисковых запросов в рускоязычном сегменте сети Интернет

Однако необходимо отметить, что эти сервисы дают хорошие результаты только при работе с темами общего профиля, а при проведении поиска узкоспециализированной информации возникают трудности. Кроме того, в данных системах существует проблема многоязычного представления информации в сети Интернет [1]. Поисковые сервисы общего назначения работают только в том языковом множестве, на котором был задан запрос, однако при поиске узкоспециализированной персонифицированной информации можно сразу организовать мультилингвистическую поисковую процедуру [1; 2].

Для разрешения упомянутых выше проблем могут быть использованы существующие технологии и подходы, но с акцентом на обработку мультилингвистической тематико-ориентированной информации. В этом плане хорошо зарекомендовала себя технология реализации информационно-управляющих систем, основанная на многоагентном подходе. Создание поисковых систем на базе агентного принципа позволяет производить модификацию отдельных агентов, не оказывая существенного влияния на работоспособность системы в целом.

Поисковые мультиагентные системы являются разновидностью метапоисковых систем. Архитектура метапо-исковой системы предоставляет единый доступ к нескольким поисковым системам, т. е. обслуживает запросы пользователей за счет опроса других пользовательских систем, которые полностью независимы и не предоставляют никакой специальной информации о содержимом своих индексов или используемых методов поиска. Это приводит к тому, что при построении метапоисковых систем приходится решать ряд новых проблем. Так, например, языки запросов, используемые в разных поисковых системах, зачастую сильно отличаются и поэтому необходим либо упрощенный язык поиска для метапоисковой системы, либо переформулировка запросов для каждой конкретной поисковой системы. Другой проблемой является слияние ответов от различных поисковых систем.

Авторами предлагается следующая структура организации взаимодействия между агентами многоагентной корпоративной системы (рис. 2). Эта система состоит из четырех логически связанных программных модулей

(агентов), назначение и структуру каждого из которых покажем ниже.

Интерфейсный агент отвечает за организацию работы пользователя с системой обработки информации. Он связан с двумя другими агентами - поисковым агентом и агентом обработки информации. Этот агент является простым в структуре и исполнении и выполняет все операции по взаимодействию с пользователем: получает от него запрос на поиск, передает запрос поисковым агентам, осуществляет вывод результатов поиска пользователю, выполняет адаптацию поискового процесса к используемым поисковым системам.

Каждый поисковый агент взаимодействует с конкретной поисковой системой (рис. 3). Этот агент требует более детального описания, так как его реализацию предлагается произвести в метапоисковом мультилингвисти-ческом исполнении.

Поисковый агент является первичным. Основная его задача - это обработка поисковой строки пользователя, которую этот агент получает от интерфейсного агента. После того как строка была обработана, необходимо инициализировать мультилингвистическую метапоисковую процедуру как в корпоративной сети, так и в сети Интернет. Далее выполняются процессы проверки существования документов и удаления дублей документов. После этого вся полученная выборка информации передается агенту обработки информации (рис. 4).

Этот агент отвечает за управление информацией те-магической коллекции, полученной на этапе поиска (с точки зрения пользователя корпоративной системы).

Агент обработки информации состоит из следующих элементов:

  • -    информационно-управляющего агента (это функционально главный агент данной процедуры);

  • -    двух агентов, которые жестко связаны между собой: агента определения релевантности и агента сопоставления документа предметной области;

  • -    агента ранжирования информации;

  • -    агента обработки отображения информации.

Рассмотрим более подробно агентов определения релевантности и сопоставления документа предметной

Рис. 2. Обобщенная схема многоагентной системы

области. Первый агент производит определение релевантности документов из предлагаемой выборки. Применяя алгоритмы определения релевантности, можно показать, что некоторые документы являются более релевантными запросу, а некоторые – менее. Таким образом, появляется проблема обработки условно релевантных документов, т. е. документов из смежных предметных облас- тей. Следовательно, при поиске необходимо определить возможность попадания в результирующую выборку данных из таких областей. И здесь нужно учитывать предпочтения пользователя системы и решать задачу включения документов из смежных предметных областей в результирующую выборку (или исключения из нее). Именно эту задачу и решает агент сопоставления информации

Рис. 3. Схема работы поискового агента

Рис. 4. Схема работы агента обработки информации

предметной области. Кроме того, в выбранном тексте релевантным предметной области может быть не весь документ, а только его часть, например отдельные разделы из учебников общего назначения, отдельные статьи из сборников статей, разделы из отчетов организаций и т. д. Учет этого ограничения поможет при принятии решения о предоставлении пользователю только необходимой ему части информации.

Следующий агент – это агент ранжирования. Он является не менее важным при обработке информации, так как при выдаче пользователю нескольких тысяч документов на первом месте в списке отображения должны стоять самые ценные документы.

Агент тематико-ориентированного мониторинга отвечает за анализ информационных предпочтений пользователя корпоративной системы в рамках информационно-тематических коллекций и обеспечение ему персонифицированной поддержки навигации и персонифицированных данных. Благодаря предоставлению пользователям информационных коллекций персонифицированных навигационных меню из ссылок на страницы, близкие к их тематическим предпочтениям, происхо- дит уменьшение времени, необходимого для поиска нужной информации, и снижается пользовательский трафик как в корпоративной, так и во внешней сети за счет просмотра только качественной информации.

Таким образом, предлагаемые решения должны повысить удобство работы пользователей с информационными ресурсами корпоративной системы и послужить для них дополнительным стимулом для более частого посещения этих ресурсов. Данный подход также должен существенным образом снизить нагрузку как на внутренний (корпоративный), так и на внешний трафик.

Статья научная