Активная модель мультиязычных запросов пользователя в информационно-управляющих системах
Автор: Карцан Игорь Николаевич, Кустов Денис Викторович, Яркова Светлана Анатольевна
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 3 (16), 2007 года.
Бесплатный доступ
Предлагается подход к использованию активной модели пользователя в информационно-управляющих системах, что позволяет еще на этапе их проектирования обеспечить персонализацию мультилингвистических поисковых систем.
Короткий адрес: https://sciup.org/148175562
IDR: 148175562
Текст научной статьи Активная модель мультиязычных запросов пользователя в информационно-управляющих системах
К достоинствам системы можно отнести следующие
Использование частотного словаря позволяет производить поиск сразу на нескольких языках, например русском, английском и немецком.
Реализация метопоисковых принципов позволяет охватывать индексы трех самых популярных поисковых web-служб -Яндекс, Google, Rambler.
Реализация независимой от внешнего web-сервера проверки релевантности позволяет сократить объем нерелевантных ссылок в результатах поиска и существенно повысить качество обработки запросов пользователя.
Применение алгоритмов, базирующихся на частотных словарях, позволяет повысить степень релевантности документов запросу пользователя, а также уменьшить объем трафика пользователя при формировании собственной базы релевантных документов.
Библиографический список
-
1. Талантов, М. Поиск в Интернете: подводные камни / М. Талантов // КомпьютерПресс. 1999. № 9. С. 46-52.
-
2. Зеленков, П. В. Проблема развития метапоисковых технологий / П. В. Зеленков, Т. А. Ковалева//Вестник НИИ СУВПТ : сб. науч. тр.; под общ. ред. проф. Н. В. Василенко. Красноярск: НИИ СУВПТ. 2004. Вып. 14. С. 95-103.
-
3. Ковалев, И. В. Автоматизация формирования информационно-терминологического базиса мультилинг-вистических обучающих технологий / И. В. Ковалев, П. В. Зеленков // Телекоммуникации и информатизация образования. 2005. № 3 (28). С. 68-82.
моменты.
М. V. Karasev, I. N. Kartsan, Р. V. Selenkov
META-SEARCH MULTI-LINGUISTIC SYSTEM
Meta-search principles of information retrieval processes are considered. These principles are applied to the ranking of information for the user inquiry. The realization of meta-search multi-linguistic system «Zendex» is presented.
И. Н. Карцан, Д. В. Кустов, С. А. Яркова
АКТИВНАЯ МОДЕЛЬ МУЛЬТИЯЗЫЧНЫХ ЗАПРОСОВ ПОЛЬЗОВАТЕЛЯ В ИНФОРМАЦИОННО-УПРАВЛЯЮЩИХ СИСТЕМАХ
Предлагается подход к использованию активноймодели пользователя в информационно-управляющих системах, что позволяет еще на этапе их проектирования обеспечить персонализацию мультилингвистических поисковых систем.
На сегодняшний день наиболее перспективным видом информационных систем (ИС) являются информа-ционно-управляющие системы (ИУС) в мультинациональных корпорациях. Это объясняется, в первую очередь, характерной тенденцией интеграции ранее разрозненных (например, по принципу физического места расположения подразделения) информационных источни ков корпорации в единую информационную базу. Упомянутые информационные системы, наряду с другими, обладают такими характерными свойствами, как централизованность (в плане сосредоточения базы знаний ИС) и многоязычность документов, хранящихся в такой ИС. При этом для современных информационно-управляющих систем характерен значительный прирост объемов многоязычной (мультилингвистической) информации, хранящейся в банках данных.
В процессе управления дискретными техническими и человеко-машинными системами предприятия необходимо осуществлять поиск и предоставлять пользователю - лицу, принимающему решения (ЛПР), все хранимые документы и данные, имеющие отношение к сложившейся производственной ситуации, предварительно упорядочив их по степени важности выдаваемой информации. Особую сложность приобретают вопросы своевременного предоставления управленческому персоналу документов, принадлежащих различным языковым множествам. Значительно возросшие требования к оперативности и качеству функционирования систем поиска муль-тилингвитсической информации, используемых ЛПР в различных экономических и производственных ситуациях, требуют разработки соответствующих алгоритмов.
Традиционно применяемые алгоритмы поиска мультилингвитсической информации ориентированы только на обработку существующей коллекции документов. Для этого разработаны достаточно эффективные процедуры [1]. Но требования к оперативности и качеству функционирования систем поиска мультилингвитсической информации, используемых лицом, принимающим решения в различных экономических и производственных ситуациях, значительно возросли. В такой ситуации использование только традиционных методов и их модификаций недостаточно, поскольку такая схема не позволяет оперативно и в достаточной мере оценивать меняющиеся приоритеты самого ЛПР, влияющего на процесс принятия решений.
В данной работе предлагается новый подход к использованию ранее хорошо зарекомендовавшей себя [2] адаптивной модели пользователя, в роли которого в случае ИУС выступает ЛПР. Такой подход позволяет увеличить эффективность традиционных процедур поиска релевантных ситуации документов в мультилингвистической коллекции документов за счет использования модели ЛПР и алгоритма ее адаптивной корректировки на каждом этапе работы с системой. При этом достигается более высокая проработка априорной информации и предоставляется возможность использования ее в традиционных системах поиска мультилингвитсической информации.
Коллекции многоязычной (мультилингвистической) информации. Очевидно, что, когда речь идет о банках данных мультинациональных предприятий и корпораций, основной задачей становится своевременное предоставление управленческому персоналу документов, принадлежащих различным языковым множествам, в процессе подготовки и принятия решения. При этом значительно возрастают требования к оперативности и качеству функционирования систем поиска мультилингвитсической информации, используемых лицом, принимающим решения (ЛПР) в различных экономических и производственных ситуациях.
Для обеспечения вышеуказанных требований к скорости оперирования мультиязычными документами разрабатываются различные способы представления таких документов и ранжирования их в рамках заданных коллекций.
В рамках рассматриваемого подхода применяется хорошо зарекомендовавшая себя [2] векторная модель данных. Любой документ представляется как вектор частот появления определенных терминов в нем. При таком подходе отношения между документами и терминами представляются в виде матрицы смежности А, элементом некоторой является частота появления термина t в документе d,. Обозначим через т количество проиндексированных терминов в коллекции документов d, а через и - количество самих документов. В общем случае элементом и^матрицы А является некоторый вес, поставленный в соответствие паре документ-термин (d . , t). После того, как все веса заданы, матрицаА становится отображением коллекции документов в векторном гиперпространстве.
Активная модель и профили ЛПР. Профиль ЛПР отражается на выборе рациональной стратегии поведения в сложных производственных ситуациях, зависит не столько от количественных соотношений, сколько от качественных формулировок. Выбор категории или профиля ЛПР зачастую определяется набором типовых ситуаций, которые возникают в системе управления только в том виде, в котором он был зафиксирован на практике.
При формировании профиля ЛПР учитывается ряд атрибутов, харакетризующий различные производственные ситуации, возникающие в процессе функционирования промышленного предприятия:
-
- наименование ситуации;
-
- описание причин ее возникновения;
-
- указание последствий, к которым она может привести;
-
- временные характеристики, определяющие время возникновения и окончания ситуации;
-
- наименование структурных подразделений предприятия, где возникла производственная ситуация;
-
- описание мероприятий, необходимых для ее успешного разрешения;
-
- указание производственных факторов, влияющих на процесс принятия решений;
-
- список документов, регламентирующих поведение ЛПР в сложившейся ситуации;
-
- перечень данных, поступающих от различных информационно-измерительных систем предприятия и используемых ЛПР в процессе выработки решения.
Необходимо отметить, что на ряде промышленных предприятий некоторые из указанных выше характеристик производственных ситуаций могут не использоваться управленческим персоналом в процессе принятия решения. Кроме того, ряд характеристик производственных ситуаций может оставаться не определенным экспертами в течение значительного промежутка времени. В этих случаях в разрабатываемой поисковой системе при формировании профиля ЛПР будут учитываться только известные (базовые) характеристики и не будут рассматриваться остальные.
В работе предложена новая схема моделирования ЛПР, основанная на инициализации начального профиля и его последовательной корректировке в процессе работы. При этом документы могут быть представлены как векторы латентного семантического пространства [2]. Для того чтобы следить и непрерывно анализировать возможные изменения интересов ЛПР, предлагается ввести понятие временного измерения в латентном семантическом пространстве, тем самым рассматривая уже не само латентное семантическое пространство, а его модификацию -временное латентное семантическое пространство. Каждое измерение (за исключением временного) такого векторного пространства представляет собой условные вероятности при заданном классе Р(-\z). Документы представляют собой векторы с весовыми коэффициентами (координатами) P(z\d), временное измерение полагаем равным нулю. Запросы ЛПР, равно как и сами документы, могут быть представлены в виде векторов во временном латентном семантическом пространстве. Кроме весов P(z\Q) у них есть дополнительное (временное) измерение (текущий вес), первоначально равное некоторой положительной величине, уменьшающейся с течением времени, исходя из предположения о падении актуальности определенной производственной ситуации (при отсутствии ее фигурирования в течение продолжительного времени). Если ЛПР инициирует запрос, связанный с определенной категорией из его текущего профиля, то вес данной категории может быть либо стабилизирован на определенное время, либо увеличен.
Согласно геометрии рассматриваемого латентного семантического пространства, запрос ЛПР, состоящий из терминов, проецируется в латентное семантическое пространство, при этом гиперповерхность 5, образованная запросом Q, является пересечением вероятностных поверхностей всех классов Н, введенных на латентном семантическом пространстве, в которых с определенной вероятностью фигурирует данный термин:
H ki .
Алгоритм адаптивной коррекции профиля ЛПР основан на неявной обратной связи с ним, которая реализуется на основе истории его запросов в конкретных производственных ситуациях [3]. На вход алгоритма поступает запрос ЛПР, на выходе - одна или более троек (триплетов) вида (С., W, а.), где С - категория ЛПР, Ж - текущий вес, а. - уровень изменчивости (смысл данной величины состоит в том, чтобы отразить насколько изменяются ин тересы ЛПР в рамках текущей производственной ситуации по отношению к прошлым ситуациям и, следовательно, запросам к БД ИУС). При этом профиль ЛПР организован таким образом, что его интересы разделены на два типа: краткосрочные (краткосрочный профиль) и долгосрочные (долгосрочный профиль). Как правило, емкость долгосрочного профиля больше емкости краткосрочного.
Таким образом, предлагаемый в работе подход к использованию активной модели пользователя в ИУС позволяет еще на этапе проектирования предусмотреть возможность персонализации таких систем. Очевидно, что использование активной модели пользователя (в роли пользователя в данном случае выступает ЛПР) имеет существенное значение при учете производственных факторов, влияющих на процесс принятия обоснованных решений, анализе последствий, к которым может привести та или иная ситуация (то или иное решение). Кроме того, в силу мультиязычности описываемой системы персонализация позволяет сократить время обучения ЛПР и обработки мультиязыковых запросов к системе. При этом непрерывная корректировка модели позволяет отслеживать изменения в предпочтениях ЛПР и вносить соответствующие корректировки в коллекции релевантных документов.