Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек вуза

Бесплатный доступ

В статье описано бесплатное распространяемое программное обеспечение для каталогизации ресурсов Интернет и автоматического скачивания описанных ресурсов. In this article we describe software we are developing for catalog and harvesting online journals.

Интернет харвестинг, скачивание, онлайновые ресурсы

Короткий адрес: https://sciup.org/14062093

IDR: 14062093

Текст научной статьи Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек вуза

В настоящее время не нужно никого убеждать в том, что онлайновые ресурсы часто содержат весьма ценную информацию, которую с успехом можно применить в образовательном процессе.

Это могут быть сайты, созданные группой учёных единомышленников, преподавателями университетов, размещающими материалы для студентов в Интернет, онлайновые версии журналов и многое другое. У всех этих материалов есть один большой недостаток - отсутствуют гарантии их постоянного размещения в Интернет. Может распасться научный коллектив, сменить работу преподаватель, разориться журнал,- в результате ценный ресурс исчезнет.

Методология и/или теоретическая часть

В Российской государственной библиотеке при поддержке РФФИ грант 04-07-90056-в с 2004 года идет работа по созданию инструмента способного сохранить необходимый библиотеке ресурс, путем его автоматического скачивания и предоставить возможность поиска по скачанным ресурсам.

В настоящее время работа близится к завершению, и нам удалось создать работоспособное и, что немаловажно, переносимое решение, которое, как нам кажется, может быть использовано в любой заинтересованной организации или любым исследователем для формирования своей собственной электронной библиотеки путем скачивания из Интернета необходимых ресурсов.

Мы поставили перед собой задачу сделать программное обеспечение достаточно универсальное, настраиваемое, несложное в установке, распространяемое бесплатно, с исходными кодами, с помощью которого можно создать архив ресурсов Интернет.

Что же в итоге у нас получилось.

Наша система состоит их трех модулей: каталог ресурсов, архив ресурсов, полнотекстовый поиск в архиве.

Все модули могут функционировать самостоятельно, могут быть установлены на отдельные компьютеры и взаимодействовать между собой по сети.

Каталог ресурсов – это база данных, реализованная на PostgreSQL (выбор СУБД во многом определялся требованием свободного распространения). Обращение к БД производится двумя путями. Для ввода библиографического описания (БО) и редактирования его, а также для поиска по элементам БО разработан WEB интерфейс, позволяющий вести работу с любого компьютера в Интернет.

WEB интерфейс может быть использован для работы студентов, собирающих в Интерне материал по заданной преподавателем темы.

В соответствии с определенной администратором роли, вводящий может только вводить или и редактировать чужие записи. Такая роль может быть отведена, например, руководителю студенческого коллектива. В систему встроена проверка на дублирование, поэтому один и тот же ресурс не будет описан дважды. Форматом описания ресурсов выбран Dublin Core Metadata Element Set (DC MES). Это формат уже стал стандартом de facto в практике описания ресурсов Интернет. Использование этого формата поможет в случае обмена между архивами различных университетов. Стандарт с одной стороны достаточно подробен для описания ресурса, а с другой стороны достаточно прост для освоения не только опытными библиографами, но и обычными студентами.

Для проведения административных операций типа переиндексирования базы, ввода новых пользователей и экспорта-импорта записей была разработана специальная клиентская программа, работающая под Windows и выполняющая все эти функции. Кроме БО в базе данных содержится информация о параметрах для скачивания полных текстов статей в нашем случае или просто отдельных страниц сайтов в общем случае. Администратор задает время, через которое нужно проверить сайт на обновление и количество копий, которые нужно хранить. Модуль скачивания основан на свободно распространяемой программе WGET, работающей под всеми версиями UNIX или под Windows. Эта программа была доработана, и к ней был дописан отдельный модуль на PHP

Рис.1. Архитектура хранилища.

В настоящий момент в файловой системе одновременно хранится три копии сайтов. В начальный момент работы программа скачивает полную версию сайта в соответствии с заданным URL (если журнал распределен по двум или более серверам, то указываются несколько URL). Эта копия будет храниться в файловой системе для сравнения при последующем скачивании. Для полнотекстового поиска эта копия проходит обработку для удаления рекламных блоков и прочей непрофильной информации. Администратор задает список регулярных выражений, в соответствии с которыми удаляется ненужная информация. Через заданный для этого сайта интервал времени происходит повторное скачивание. При этом происходит сравнение скачиваемых страниц с копией, оставленной для сравнения. Если различия (в байтах) больше 0, но меньше 20%, от скачиваемого объема, то происходит обычная операция замены старой копии новой, результат прошлого скачивания становится второй копией. Если отличия больше чем 20%, то информация об этом доставляется администратору для принятия решения о допустимости замены копии. Возможны случаи, изменения содержимого сайта без изменения URL малоценной информацией, и при этом необходимо избежать затирания содержимого сохраненного сайта.

На приведенном рисунке (рис. 2) показано как выглядит для пользователя наш архив. Кроме списка журналов приводятся даты закачки и объем скачанной информации.

Search for: Г

Search! | Extended

Powered by mnoGoSearch ■ free web «arch ensuie software

Please enter one or more words and press Search.

Letter: All c_j^-JLAJ-J-JLAJmLJLJJ±JLQ_n_2_c_J_XJLJ< Ч Э Ю Я

Page: 12 3 4 5 6 7 8 910 11 12 13 14

id                  название

дата последней закачки

объём

105 Компания: деловой еженедельник

па.

10 03.2006 09:45:53

1.118.283.133

100 Кодекс-info

IL1

10.03,2006 04:58:31

1.104.410.320

260 Учительская газета

111

24.03.2006 14:33:59

1.103.566.681

7<,^ Вестник Европы. Журнал европейской культуры

27.03.2006 00:35:28

1,098.970.885

269Урал

щ

27.03.2006 13:44:18

1.098.921.486

193 Звезда

гы

19.03.2006 10:45:59

1.098.900.304

190 Октябрь

LU

18.03.2006 01:06:04

1.098.800.765

189 Дружба народов

17.03.2006 23:07:44

1.098.765.981

188 Иностранная литература

17.03.2006 21:29:23

1.098.721.686

192 Вопросы литературы

18.03.2006 0 5:21:3 0

1.098.697.081

187 Новая юность

IU

15.03.2006 20:00:19

1.098.631.211

Г

ГГ 1

Рис.2. Архив пользователя

Предлагаемое программное обеспечение было испытано в РГБ для создания архива онлайновых научных журналов.

Журналы шаблоны управление

1 2 3 4 5 б 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 2.

28 29 30 31 32 33 34 35 36 37 38 39

id название

ЧИСЛО копий

дата частота последней резуль закачки

^ Гуманитарные

1 науки в Сибири

[L]

2

30

30.12.2005 12:53:02

в проще.

2 Credo

[L]

2

30

30.12.2005 12:53:08

в проще,

3 Русский журнал [L]

2

30

09.03.2006 13:56:03

+

4 Топос

[L]

2

30

30.12.2005 12:53:12

в проще.

Web Journal of

Рис.3. Журналы, шаблоны, управление.

Опыт показал, что скачивание происходит корректно, многие ошибки в HTML разметке скачиваемых страниц отображаются правильно. Наличие шаблонов, несмотря на некоторые дополнительные трудозатраты по их созданию, уменьшает необходимое дисковое пространство и количество информационного шума при поиске Для контроля скачивания был разработан WEB интерфейс, позволяющий задавать параметры скачивания и проводить мониторинг процесса.

Сейчас в нашем архиве около 800 журналов, общий объем архива составляет 300 гб.

При архивировании онлайновых ресурсов необходимо учитывать некоторые юридические аспекты. Во первых нужно помнить, что в Интернете у всего есть хозяин. На скачиваемые материалы, как правило, у кого то есть имущественные права. Если с неимущественными правами проще, главное не забывать указывать автора используемого материала, то с имущественными – сложнее. Если Вы хотите опубликовать скачанный материал в Интернет, то есть открыть к нему доступ всем желающим, то Вы должны заключить договор с правообладателем на использование его материала или с РОМС, который сам будет разбираться с автором и перечислять ему деньги за каждое скачивание. В РГБ разработаны типовые договора для организаций создающих ресурсы и для отдельных авторов.

Для полнотекстового поиска в скачанных массивах мы используем бесплатное программное обеспечение mnogosearch , увязанное в общий пользовательский web интерфейс.

Заключение

Описанное программное обеспечение по плану работ по гранту РФФИ 04-07-90056-в будет готово для распространения в конце 2006 года. Первый модуль – каталог уже готов и может быть выслан всем желающим, обратившимся к автору статьи.

Статья научная