К вопросу о модулярности веб-пространства образовательного учреждения
Автор: Дербенева Ольга Юрьевна, Марахтанов Алексей Георгиевич, Насадкина Ольга Юрьевна, Печников Андрей Анатольевич
Журнал: Ученые записки Петрозаводского государственного университета @uchzap-petrsu
Рубрика: Физико-математические науки
Статья в выпуске: 8 (145) т.2, 2014 года.
Бесплатный доступ
Исследование модулярности веб-пространства высшего учебного заведения на примере Петрозаводского государственного университета (ПетрГУ) позволяет получить результаты, описывающие укрупненную структуру веб-пространства вуза, и обнаружить самоорганизацию вебпространства, происходящую без внешнего (административного) регулирования, что позволяет предложить рекомендации, направленные на улучшение связности веб-пространства, в том числе и с использованием административного воздействия.
Веб-пространство, веб-сайт, гиперссылка, связность сайтов, веб-граф, модулярность
Короткий адрес: https://sciup.org/14750751
IDR: 14750751 | УДК: 004.738.5
Revisiting the web space modularity of an educational institution
The study of the web space modularity of a higher educational institution based on the example of the Petrozavodsk State University yields results that describe the extended structure of the institution’s web space, and allows the self-structured (not regulated by an outside authority) pattern of web space to be discovered. This, in turn, enables recommendations on how to improve the connectedness of the web space using, among other methods, an external administrative authority.
Текст научной статьи К вопросу о модулярности веб-пространства образовательного учреждения
Веб-ресурсы крупных организаций, предприятий и учреждений относятся к регламентируемым веб-ресурсам [5]. Это означает, что существует (или должен существовать) официальный документ, в котором изложены цели и задачи веб-ресурса, основные структурные составляющие, правила изменения информации и т. д.
Под веб-сайтом понимается веб-ресурс (множество взаимосвязанных html-страниц и документов), идентифицируемый в Вебе посредством уникального доменного имени.
Веб-пространство организации (предприятия, учреждения) – это множество веб-сайтов организации, связанных посредством гиперссылок. Как правило, в таком множестве выделяется так называемый головной сайт (официальный сайт организации), сайты подразделений, проектов, различных мероприятий, форумы, викиресурсы.
Уточним используемое в статье понятие «гиперссылка». На различных страницах одного сайта могут встречаться гиперссылки на один и тот же внешний адрес, имеющие одинаковый контекст (в частном случае – анкор), и количество таких «одинаковых» гиперссылок может быть равно количеству страниц на сайте (например, ссылка на сайт вышестоящей организации). Из такого множества гиперссылок с одинаковым адресом-приемником и контекстом, сделанных с данного сайта, в нашем исследовании мы рассматриваем только одну – ту, которая находится на странице, имеющей максимальный уровень (наивысшим считается уровень начальной страницы сайта). Такая гиперссылка называется «уникальной внешней гиперссылкой» [5], и, поскольку далее рассматриваются только такие ссылки, мы будем называть их гиперссылками (или просто ссылками).
Математической моделью, успешно используемой для анализа веб-пространства организации, является веб-граф, построенный следующим образом: множество вершин соответствуют сайтам организации, а множество дуг – гиперссылкам, связывающим эти сайты. Понятно, что такой веб-граф является ориентированным графом без петель, имеющим кратные дуги.
Для исследования структуры веб-пространства используются как традиционные теоретико-гра-
фовые подходы, основанные на обнаружении компонент связности, кратчайших путей [5], так и подходы, развитые в последнее десятилетие применительно к Вебу. К ним относятся работы по изучению самоорганизации веб-сообществ
-
[10] и исследования модулярности графа [13].
Неформально под веб-сообществом понимается некоторое подмножество вершин вебграфа, для которого количество дуг, связывающих вершины-участники веб-сообщества, больше, чем количество дуг, связывающих их с другими вершинами.
Модулярность, в свою очередь, это свойство графа и некоторого разбиения его на подграфы. Мера модулярности показывает, насколько данное разбиение качественно в том смысле, что существует много ребер, лежащих внутри подграфов, и мало ребер, лежащих вне подграфов (соединяющих подграфы между собой).
В данном случае речь идет о ребрах, а не о дугах, поскольку ориентированный граф достаточно тривиально преобразуется в неориентированный. На практике значения модулярности, лежащие в пределах от 0,3 до 0,7, говорят о том, что граф имеет структуру с различимыми подграфами с заданными свойствами. Для обозначения подграфов, на которые разбивается граф, в русскоязычной литературе используются различные термины, такие как «кластеры», «неявные сообщества», «модули»; далее мы будем использовать термин «модуль». Можно считать, что неориентированный граф с высоким значением меры модулярности является хорошим объектом для последующего выявления сообществ в его ориентированном прообразе.
Целью данной работы является исследование модулярности веб-пространства высшего учебного заведения (на примере ПетрГУ). Результаты, полученные в рамках исследования, позволяют описать структуру веб-пространства вуза, обнаружить (или, наоборот, не обнаружить) самоорганизацию веб-пространства, происходящую без внешнего (административного) регулирования, и предложить рекомендации, направленные на улучшение связности вебпространства с использованием административного воздействия.
Полученные результаты и сделанные выводы, демонстрируемые на примере ПетрГУ, могут служить руководством к действию и легко переносимы на другие вузы, организации, предприятия и учреждения.
ВЕБ-ГРАФ ПЕТРГУ
Общее количество сайтов, составляющих веб-пространство ПетрГУ, в данном исследовании равно 147. Следуя работе [6], их можно разбить на 13 групп. Перечислим эти группы (в скобках в качестве примера указано по одному характерному представителю данной группы для ПетрГУ):
-
1. Официальный сайт университета (официальный сайт ПетрГУ – petrsu.ru);
-
2. Сайты факультетов (математический факультет – mf.petrsu.ru);
-
3. Сайты кафедр (кафедра математического анализа ПетрГУ – analysis.petrsu.ru);
-
4. Сайты научной библиотеки, ботанического сада, институтов, центров (Научная библиотека – library.petrsu.ru);
-
5. Сайты филиалов университета, университетских лицеев и т. д. (Кольский филиал ПетрГУ– www.arcticsu.ru );
-
6. Сайты издательства, научных журналов, медиа-ресурсов (журнал «Принципы экологии» – ecopri.ru);
-
7. Сайты структурных подразделений университета, не вошедшие в группы 2–6 (Региональный центр новых информационных технологий – rcnit.petrsu.ru);
-
8. Сайты научных конференций, организуемых университетом (конференция «Космос братьев Гримм» – grimms.petrsu.ru);
-
9. Сайты программ и проектов, выполняемых сотрудниками университета («Британцы в Карелии» – britons.karelia.ru);
-
10. Сайты учебных ресурсов, разработанные сотрудниками университета («Виртуальная педпрактика» – praktika.karelia.ru);
-
11. Сайты информационно-справочных систем и ресурсов университета («Аспирантура ПетрГУ» – aspirant.petrsu.ru);
-
12. Персональные сайты сотрудников университета (сайт Андрея Мезенцева – amez.petrsu. ru);
-
13. Другие сайты: сайты творческих организаций, профкома и сайты, не вошедшие в группы 1–12 (Туристический клуб ПетрГУ «Сам-по» – sampo-club.ru).
Сканирование сайтов веб-пространства ПетрГУ с целью сбора исходящих гиперссылок производилось программой BeeCrawler [14]. Для хранения, обработки и анализа гиперссылок использовалась специализированная база данных внешних гиперссылок [3]. На 147 сайтах вебпространства ПетрГУ было отсканировано около 100 000 страниц и сформировано множество, содержащее 11 200 исходящих с этих сайтов гиперссылок.
Далее из 11 200 гиперссылок были отобраны 1352 гиперссылки, которые связывают сайты веб-пространства ПетрГУ, и построен веб-граф G = G(VE ); здесь V (vertex) - множество вершин, соответствующих сайтам веб-пространства, E (edge) – множество дуг, соответствующих ги-пересылкам, связывающим эти сайты, | V | =147, | E | =1352. Поскольку ряд сайтов связан гиперссылками в количестве большем, чем 1, то мы имеем G(VE ) как ориентированный граф с кратными дугами без петель.
На рисунке приводится несколько упрощенное изображение веб-графа G ( V,E ): во избежание загромождения рисунка кратные дуги не нарисованы, приведены названия только некоторых вершин и исключены 10 изолированных вершин. Головной сайт petrsu.ru представлен вершиной с наибольшей инцидентностью, расположенной почти в самом центре рисунка. Десять изолированных вершин соответствуют сайтам, которые не связаны гиперссылками с другими сайтами ПетрГУ. Отметим также, что 40 вершин являются «висячими», то есть имеют либо только исходящие, либо только входящие дуги, поскольку 26 сайтов не имеют входящих ссылок, а 14 – исходящих, связывающих их с другими сайтами ПетрГУ.
Веб-граф веб-пространства ПетрГУ
Относительно почти 36 % сайтов вебпространства ПетрГУ сразу же можно сделать вывод о том, что они не являются участниками тематических сообществ [7], для которых наличие исходящих и входящих гиперссылок для каждого сайта в рамках сообщества является обязательным условием. Вместе с тем даже беглый взгляд на рисунок позволяет обнаружить, по крайней мере, две группы сайтов, имеющих очень высокую плотность связывающих их дуг.
ИССЛЕДОВАНИЕ МОДУЛЯРНОСТИ ВЕБ-ГРАФА ПЕТРГУ
Дадим достаточно строгое и вместе с тем не громоздкое определение функции модулярности, следуя [2], для чего введем следующие обозначения:
A – матрица инцидентности графа G ( V,E ) [4], Aij – количество дуг из вершины i в вершину j , m – количество дуг в графе, m = | E | ,
Pr () – вероятность некоторого события,
S – некоторое множество модулей, на которые разбит граф G ( V,E ), s – обозначение одного из модулей s ∈ S . Тогда
Q = 1- Z Z [ A j —Pr(A j = 1) ] .
2m s - S i , j e s
На первом этапе исследования рассматривается граф G 1( V,E 1), который отличается от G ( V,E ) тем, что в нем отсутствуют кратные ребра; тогда в нашем случае | E 1 | =419.
Для анализа веб-графов была использована открытая программная платформа Gephi [11]. В Gephi для построения модульной структуры графа используется эвристический алгоритм, предложенный в [9]. Количество модулей K = || S || , на которые разбивается граф, автоматически определяется алгоритмом из соображений максимального значения функции модулярности Q .
В случае графа G 1( V,E 1) максимальное значение Q =0,486 получено для K =9.
Для пяти из девяти модулей достаточно четко отслеживается тематика сайтов.
В одном случае это 5 сайтов, посвященных теме ботанических садов (электронный журнал, ботанический сад ПетрГУ, ИПС «Ботанические коллекции» и др.). В другом случае тоже 5 сайтов, но уже филологической тематики (словарь-конкорданс публицистики Ф. М. Достоевского, проект «Digital Humanities», проект «Филолог. ру» и др.).
Еще один модуль из 9 вершин соответствует сайтам конференций по информационно-коммуникационным технологиям (серия из сайтов 8 конференций, посвященных информационной среде вуза, и сайт Всероссийской ассоциации вузов – пользователей Oracle).
Модуль из 5 вершин содержит вершины, сайты которых аффилированы с кафедрой информационно-измерительных систем и физической электроники ПетрГУ (собственно сайт кафедры, сайт научно-образовательного центра по фундаментальным проблемам приложений физики низкотемпературной плазмы и ряд других сайтов).
И, наконец, достаточно крупный модуль, содержащий 18 вершин, также можно объединить в рамках единой темы: это сайты проектов, электронных журналов и сайты разработчиков этих сайтов.
Для остальных модулей говорить о единой тематике не представляется возможным.
На втором этапе был исследован веб-граф с кратными дугами G(V,E). Здесь максимальное значение Q=0,537 получено для K=11. В этом случае появляется возможность тематически идентифицировать 9 модулей. Пять из них практически совпадают с тематическими модулями, выявленными на первом этапе. В то же время обнаруживается, например, крупный модуль из 14 вершин, соответствующих сайтам Карель- ской государственной педагогической академии (КГПА), вошедшей в состав ПетрГУ в 2013 году.
ОБ ИСПОЛЬЗОВАНИИ РЕЗУЛЬТАТОВ
Развитие веб-пространства для университета является одной из приоритетных задач. Именно состояние этого пространства в значительной степени характеризует вуз в сети Интернет, влияет на позиции сайтов вуза в поисковых системах и рейтингах, что, безусловно, является фактором, влияющим на конкурентоспособность вуза в целом.
Результаты приведенных в работе исследований имеют большую практическую ценность, поскольку служат основой для принятия различных решений по развитию веб-пространства университета, в том числе технических и управленческих.
Построенный граф наглядно показывает, что, несмотря на наличие значительного числа информационных ресурсов, развиваемых и поддерживаемых в вузе, далеко не все из них имеют гипертекстовые связи с другими сайтами веб-пространства университета, в том числе с сайтами схожих тематик. Учитывая, что такие параметры, как число внешних и внутренних гиперссылок, учитываются и поисковыми системами при ранжировании в результатах поиска [1], и системами рейтингования вузов (такими, как Webometrics [12]), очевидно, что повышение уровня связности ресурсов, составляющих веб-пространство организации, может привести к росту позиций сайтов вуза в результатах поиска и рейтингах. В то же время стоит отметить, что алгоритмы поисковых систем учитывают не только наличие ссылки, но и тематическую близость ресурсов, связанных гиперссылкой, повышение уровня связности должно осуществляться не хаотично или случайным образом, а в рамках выделенных тематических модулей или кластеров.
Стоит отметить, что наличие ссылок – важный, но не единственный параметр, влияющий на позиции сайтов веб-пространства. Современные поисковые системы учитывают более 800 факторов, а также в ряде случаев понижают степень влияния ссылок на общий результат [8]. Больший вес приобретают другие параметры, такие как поведенческие факторы, уникальность текстовой информации и пр., которые также нужно учитывать при создании и развитии университетских интернет-ресурсов.
С организационной точки зрения развитию веб-пространства вуза будет способствовать принятие регламентов и рекомендаций, определяющих принципы функционирования и развития сайтов, составляющих веб-пространство университета, например разработка правил размещения гиперссылок на ресурсах. Данные решения должны быть подкреплены выводами, сделанными на базе приведенного в настоящей статье исследования. Кроме того, имеет смысл для ряда ресурсов, выделенных в рамках данного исследования (например, для ресурсов, не имеющих связей с основным сайтом), внести точечные правки в содержимое с целью повышения уровней связности в тематических сегментах (например, с целью интеграции тематических ресурсов КГПА в веб-пространство ПетрГУ).
Важно, чтобы обозначенная работа не проводилась формально, ради простого увеличения числовых показателей, а приводила к действительному улучшению качества ресурсов, составляющих пространство, повышению удобства пользователей, работающих с веб-сайтами вуза, улучшению полноты и достоверности представленной на сайтах информации.
* Работа выполнена при поддержке Программы стратегического развития ПетрГУ на 2012–2016 гг.
REVISITING THE WEB SPACE MODULARITY OF AN EDUCATIONAL INSTITUTION
Список литературы К вопросу о модулярности веб-пространства образовательного учреждения
- Ашманов И., Иванов А. Оптимизация и продвижение сайтов в поисковых системах. СПб.: Питер, 2013. 465 с.
- Бузун Н., Коршунов А. Выявление пересекающихся сообществ в социальных сетях//Доклады всероссийской научно-практической конференции «Анализ Изображений, Сетей и Текстов» (Екатеринбург, 16-18 марта 2012 г). М.: Национальный Открытый Университет «ИНТУИТ», 2012. С. 87-96.
- Головин А. С., Печников А. А. База данных внешних гиперссылок для исследования фрагментов Веба//Информационная среда вуза XXI века: Материалы VII Всероссийской научно-практ. конф. (23-27 сентября 2013 г). Петрозаводск, 2013. С. 55-57.
- Зыков А. А. Основы теории графов. М.: Наука, 1987. 383 с.
- Печников А. А. Модель университетского Веба//Вестник Нижегородского университета им. Н. И. Лобачевского. 2010. № 6. C. 208-214.
- Печников А. А., Дербенева О. Ю. Анализ гиперссылок веб-пространства Петрозаводского государственного университета//Ученые записки Петрозаводского государственного университета. Сер. «Естественные и технические науки». 2013. № 2 (131). С. 100-106.
- Печников А. А. Методы исследования регламентируемых тематических фрагментов Web//Труды Института системного анализа Российской академии наук. Сер. «Прикладные проблемы управления макросистемами». 2010. Т. 59. С. 134-145.
- Ссылочные факторы в формуле ранжирования Яндекса: 3 месяца спустя после «отключения» . Режим доступа: http://www.computerra.ru/100955/ssyilochnyie-faktoryi-v-formule-ranzhirovaniya-yandeksa-3-mesyatsaspustya-posle-otklyucheniya
- Blondel V. D., Guillaume J.-L., Lambiotte R. E. Lefebvre Fast unfolding of communities in large networks//Journal of Statistical Mechanics: Theory and Experiment, 1742-5468, P10008, 2008. DOI: P10008 DOI: 10.1088/1742-5468/2008/10/
- Flake G. W., Lawrence S. R., Giles C. L., Coetzee F. M. Self-Organization and Identification of Web Communities//IEEE Computer. 2002. 35(3). Р 66-71.
- Gephi -The Open Graph Viz Platform. URL: https://gephi.org
- Methodology. Ranking Web of Universities. URL: http://www.webometrics.info/en/Methodology
- Newman M. E. J., Girvan M. Finding and evaluating community structure in networks//Physical Review E: Statistical, Nonlinear, and Soft Matter Physics. Vol. 69. № 2. Article ID 026113. 2004.
- Pechnikov A. A., Chernobrovkin D. I. Adaptive Crawler for External Hyperlinks Search and Acquisition//Automation and Remote Control. 2014. Vol. 75. № 3. P. 587-593.