Построение модели предметной области путём зондирования сервиса Google Scholar Citations

Автор: Ландэ Д.В.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: От редакции

Статья в выпуске: 3 (17) т.5, 2015 года.

Бесплатный доступ

Предлагается алгоритм построения терминологических сетей - моделей предметных областей на основе зондирования большой информационной сети. В качестве такой сети рассматривается сеть понятий, соответствующих тегам сервиса Google Scholar Citations. Узлы в этой сети соответствуют понятиям, маркированным тегами, а ребра - некоторую семантическую связь между ними, определяемую смежными интересами отдельных авторов. Приведён специальный алгоритм сканирования ресурсов сервиса Google Scholar Citations для получения репрезентативного набора тегов как основы модели предметной области. На основе данной сети автоматически формируется релевантный список публикаций. Приведены правила построения списка библиографических ссылок. Предложенный подход может быть применён, в частности, к библиографическим базам данных, в которых в явном виде выделены авторы и как теги - ключевые слова. Данный подход можно применять для многих областей науки.

Еще

Модель предметной области, библиография, визуализация сети

Короткий адрес: https://sciup.org/170178521

IDR: 170178521   |   DOI: 10.18287/2223-9537-2015-5-3-328-335

Текст научной статьи Построение модели предметной области путём зондирования сервиса Google Scholar Citations

1    Задача создания модели предметной области

Сегодня под моделью предметной области (ПрО), в частности, понимают специальным образом сформированную сеть понятий, онтологию . Построение большой отраслевой онтологии, в частности, онтологии проектирования, – сложная научно-практическая проблема [1, 2]. Первый этап этого процесса – построение терминологической основы онтологии и определение семантических связей [3].

Задача автоматического создания таких сложных онтологий, как онтологии проектирования, требуют учитывать знания, изначально заложенные в некоторые тексты специалистами (учёными, экспертами). В качестве таких текстов могут рассматриваться специальные справочники, массивы документов [2], сетевых публикаций и т.п.

В работе представлен подход к созданию модели ПрО на основе зондирования большой информационной сети. В качестве такой сети рассматривается сеть понятий, которые отражаются в тегах 1 наукометрического сервиса Google Scholar Citations 2 (GSC). Именно эта сеть рассматривается как источник информации, используемой для построения сети понятий. На рисунке 1 приведён фрагмент интерфейса страницы сервиса GSC, соответствующий заданному заранее тегу multiagent_systems (многоагентные системы).

На интерфейсе, соответствующем данному тегу (label: multiagent_systems), постранично в ранжированном виде отображаются имена учёных, которые обозначили свои научные ин- тересы этим понятием, а также другими понятиями (например, для автора Nick Jennings определены ещё такие теги, как Artificial Intelligence, Computer Science, Intelligent Agents). Множество тегов-понятий образуют сеть, производную от биграфа3 «учёный-понятия». Именно эту сеть будем рассматривать как некоторую модель ПрО. Узлы в этой сети соответствуют понятиям, маркированным тегами, а связи – некоторую семантическую связь между ними, определяемую смежными интересами отдельных авторов. Очевидно, эта связь может иметь вес, пропорциональный количеству авторов, которым приписывается соответствующая пара понятий.

Nick Jennings

Regius Professor of Computer Science University of Southampton

Cited by 60427

Artificial Intelligence Multi-Agent Systems Computer Science Intelligent Agents multiagent systems

Michael Wooldridge

Professor of Computer Science, University of Oxford

Cited by 49098

multi-agent systems multiagent systems knowledge representation artificial intelligence computer science

Professor Kwang Mong Sim

The Medway Chair 8 Director, Computational Economics 8 Multi-Agent Systems Lab,...

Cited by 22676

Cloud Computing Multiagent Systems Automated Negotiation Bargaining Theory Grid Computing

Munindar P Singh

Professor of Computer Science, North Carolina State University

Cited by 17767

Multiagent Systems Service-Oriented Computing Software Engineering Social Computing

Рисунок 1 – Интерфейс страницы сервиса Google Scholar Citations

Конечно, теги, указанные отдельными учёными, могут относиться к различным отраслям науки. Однако предварительно проведённые исследования показывают, что на небольшой, но достаточно репрезентативной выборке (порядка сотни тегов), небольшая частота нетематических тегов обеспечивает их автоматическое «отсеивание».

Целью работы является описание подхода и алгоритмов автоматизированного формирования модели ПрО на примере направления многоагентных систем путём зондирования наукометрической сети. Для достижения этой цели автором разработан специальный алгоритм сканирования ресурсов сервиса GSC для получения репрезентативного набора тегов (обозначений понятий) как основы будущей модели ПрО. Под зондированием информационных сетей здесь понимается выборка небольшого объёма важнейшего содержания сетей, которые по технологическим причинам не подлежат полному сканированию.

2    Описание модели

Зондирование опорной модельной сети осуществляется по следующему алгоритму, в частности, применяемому при поиске ресурсов в пиринговых сетях4 [4-6]:

  • 1)    выбирается определённое количество узлов опорной (зондируемой) сети, определяемых как базовые для новой сети, соответствующей результатам зондирования;

  • 2)    для каждого из рассматриваемых узлов опорной сети определяются смежные с ним узлы («соседи»), которые добавляются к создаваемой сети с результатами зондирования;

  • 3)    от текущего узла опорной сети осуществляется переход к соседнему узлу, имеющему наибольшую степень;

  • 4)    если имеет место «зацикливание» (выбирается узел, к которому уже был осуществлен переход по этому алгоритму), происходит переход к следующему по степени соседнему узлу. Если таких узлов не осталось – осуществляется переход к пункту 2;

  • 5)    если перечень базовых узлов завершен, считается, что сеть, соответствующая результатам зондирования, построена.

Данный алгоритм проверялся для двух самых распространенных модельных сетей Erdős-Rényi (ER) и Barabási-Albert (ВА) (рисунок 2) [6, 7]. Известно, что модель ER – это случайная сеть, которая строится следующим образом: множество из N изначально не соединенных узлов попарно объединяют с вероятностью p . В результате создается сеть приблизительно с p x N x ( N - 1) / 2 случайно выбранными связями.

a) б)

Рисунок 2 – Пример сети, построенной зондированием модельных сетей: (а) – Erdős-Rényi; (б) – Barabási-Albert

Модель BA – одна из нескольких моделей сетей со степенным распределением степеней узлов (так называемых, безмасштабных сетей). Эта модель учитывает как рост сети (динамику), так и принцип преимущественного присоединения, который заключается в том, что чем больше связей имеет узел, тем более вероятно для него создание новых связей со вновь образуемыми узлами. Узлы с большей степенью имеют большую вероятность присоединения (создания новых связей) к новым узлам [7].

Автором изначально предполагалось, что сети понятий, естественным образом формируемые участниками сетевых сервисов, как и большинство информационных сетей обладают свойством безмасштабности [8, 9] (т.е. близкими по структуре к сети BA), что, однако, не всегда можно проверить, не имея всеобъемлющей информации. Если сеть такая масштабная, как, например, GSC, на помощь может прийти зондирование, в результате которого выполняется построение некоторой новой сети, лишь частично совпадающей с исходной. Отметим, что результаты любого зондирования не всегда верно отображают природу большой исследуемой сети – они во многом зависят именно от алгоритма процедуры зондирования. Вместе с тем, зондирование может служить базой для гипотез о структуре большой сети.

Визуально качественные результаты зондирования сетей ER и BA с близкими параметрами (1000 узлов и около 2000 связей) приведены на рисунке 2. Сравнение показывает, что связанные области (ветки), соответствующие отдельным понятиям в первом случае достаточно длинные, а узлов, по которым следует маршрут зондирования, в этом случае больше, чем во втором, более интересном для нас, случае. В рамках данного исследования важны именно качественные результаты, в частности, вид связанных цепочек, которыми моделируются ветки понятий. Поэтому изначально предусматривалось, что приведённый алгоритм при зондировании реальной сети будет быстро «зацикливаться» (и, соответственно, прерываться), что приведёт к ещё большему сокращению веток понятий.

Именно на основании результатов качественного моделирования был сделан вывод о возможности формирования небольших связанных веток тегов, соответствующих понятиям, интересующим пользователей сервиса GSC.

3    Зондирование сети Google Scholar Citations

Приведённый выше алгоритм, которой применялся к модельным сетям, был адаптирован к реальной сети тегов сервиса GSC следующим образом:

  • 1)    экспертным путём определяется небольшой перечень базовых тегов (ключевых слов, соответствующих наиболее важным понятиям);

  • 2)    выбирается тег из определённого экспертами перечня;

  • 3)    открываются страницы веб-сервиса, соответствующие этому тегу (максимальное количество таких страниц параметрически ограничивается заранее);

  • 4)    к создаваемой сети добавляются все теги, содержащиеся на выбранных страницах (соседние теги);

  • 5)    из соседних тегов выбирается тот, на страницы которого планируется перейти для дальнейшего анализа. Это тег с наибольшей степенью среди соседних тегов, который также удовлетворяет тематике выбранной ПрО и не входит в состав тех тегов, к страницам которых уже был осуществлен переход;

  • 6)    если такой тег выбран, то происходит переход к пункту 3;

  • 7)    если такого тега не существует, но перечень базовых тегов не завершён, то осуществляется переход к следующему базовому тегу из начального перечня, т.е. переход к пункту 2. Иначе считается, что сеть зондирования построена.

В соответствии с приведённым алгоритмом, процесс зондирования сети, начиная с определённого узла, прекращается при «зацикливании», т.е. когда в соответствии с алгоритмом происходил переход к уже пройденному тегу, а также при отклонении оставшихся соседних тегов от основной тематики. Это определяется экспертами при автоматизированном зондировании или с учётом лексического состава тегов при полностью автоматическом сканировании. В случае автоматического выполнения алгоритма выполняется ограничение с помощью так называемых «плюс-» и «стоп-словарей»5 – наборов специальных шаблонов. При этом само «зацикливание» является признаком перехода к следующему базовому тегу или завершению процесса зондирования.

Формирование стартового перечня узлов-понятий и правил отбора «конечных» узлов выполняется экспертами в ПрО.

Для построения модели ПрО (в рассматриваемом примере для области многоагентных систем) экспертным путём были определены базовые теги на английском языке (здесь, в частности, различные написания, соответствующие одному и тому же понятию): multiagent_system ; multiagent_systems ; multi_agent_systems.

В качестве «плюс-словаря» использовался такой набор шаблонов: multiagent ; agent ; artificial_intelligent ; decentral.

В рассматриваемом частном случае «стоп-словарю» соответствовал набор шаблонов (исключалась медико-биологическая тематика): bio ; medic ; health.

На рисунке 3 приведён пример - центральный фрагмент сети понятий ПрО, построенной в соответствии с приведённым алгоритмом по указанным базовым тегам.

Рисунок 3 - Центральный фрагмент построенной сети понятий

При приведённых выше трёх базовых тегах общее количество узлов-тегов, которые были охвачены алгоритмом, составило 165, а количество нетерминальных узлов - лишь 12.

4    Построение библиографических списков

На основании построенной в результате зондирования сервиса GSC сети и возможностей данного сервиса могут автоматически составляться библиографические списки, соответствующие наиболее цитируемым работам в выбранной области за указанные промежутки времени.

Правила построения библиографических ссылок достаточно простые и охватывают такие шаги:

  • 1)    последовательно выбирается заранее заданное количество наиболее весомых узлов построенной сети;

  • 2)    в соответствии с этими узлами-тегами формируются запросы к сервису GSC и отбираются наиболее цитируемые авторы за указанный период времени;

  • 3)    открываются страницы выбранных авторов, на которых приводятся ссылки на публикации, с указанием их цитируемости;

  • 4)    среди наиболее цитируемых работ автора выбираются публикации, заголовки которых соответствуют «плюс-» и «стоп-словарям» (примеры приведены выше);

  • 5)    в случае необходимости из отобранных публикаций выбираются только те, которые содержат ссылки на полные тексты в формате PDF.

На рисунке 4 приведён пример автоматически сформированного библиографического списка со ссылками на PDF-файлы публикаций.

Список литературы Построение модели предметной области путём зондирования сервиса Google Scholar Citations

  • Добров, Б.В. Онтологии и тезаурусы. Модели, инструменты, приложения / Б.В. Добров, В.Д. Соловьев, Н.В. Лукашевич, В.В. Иванов. - М.: Бином, 2009. - 173 с.
  • Ландэ, Д.В. Подход к созданию терминологических онтологий / Д.В. Ландэ, А.А. Снарский // Онтология проектирования. 2014. №2(12). - С. 83-91.
  • Чанышев, О.Г. Автоматическое построение терминологической базы знаний / О.Г. Чанышев // Труды 10-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2008, Дубна, Россия, 2008. - C. 85-92.
  • Zeinalipour-Yazti, D. Information Retrieval in Peer-to-Peer Networks / D. Zeinalipour-Yazti, V. Kalogeraki, D. Gunopulos // IEEE CiSE Magazine. Special Issue on Web Engineering. 2004. - P. 1-13.
  • Kalogeraki, V. A Local Search Mechanism for Peer-to-Peer Networks / V. Kalogeraki, D. Gunopulos, D. Zeinalipour-Yazti, // Proc. of CIKM'02. McLean VA, USA, 2002.
  • Yang, B. Efficient Search in Peer-to-Peer Networks / B. Yang, H. Garcia-Molina // Proc. of ICDCS'02. Vienna, Austria, 2002.
  • Erdős, P. On The Evolution of Random Graphs / P. Erdős, A. Rényi // Magyar Tud. Akad. Mat. Kutató Int. Közl. 5, 1960. - P. 17-61.
  • Réka, A. Statistical mechanics of complex networks / A. Réka, A.-L. Barabási // Reviews of Modern Physics 74, 2002. - P. 47-97.
  • Ландэ, Д.В. Моделирование контентных сетей / Д.В. Ландэ // Проблеми iнформатизацiх та управлiння: Збiрник наукових праць: Випуск 1(37). - К.: НАУ, 2012. - С. 78-84. - http://dwl.kiev.ua/art/piu2012/.
Еще
Статья научная