Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек вуза
Автор: Шварцман М.Е.
Журнал: Образовательные технологии и общество @journal-ifets
Рубрика: Sixth thematic workshop on digital library architectures
Статья в выпуске: 3 т.9, 2006 года.
Бесплатный доступ
В статье описано бесплатное распространяемое программное обеспечение для каталогизации ресурсов Интернет и автоматического скачивания описанных ресурсов. In this article we describe software we are developing for catalog and harvesting online journals.
Интернет харвестинг, скачивание, онлайновые ресурсы
Короткий адрес: https://sciup.org/14062093
IDR: 14062093
Текст научной статьи Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек вуза
В настоящее время не нужно никого убеждать в том, что онлайновые ресурсы часто содержат весьма ценную информацию, которую с успехом можно применить в образовательном процессе.
Это могут быть сайты, созданные группой учёных единомышленников, преподавателями университетов, размещающими материалы для студентов в Интернет, онлайновые версии журналов и многое другое. У всех этих материалов есть один большой недостаток - отсутствуют гарантии их постоянного размещения в Интернет. Может распасться научный коллектив, сменить работу преподаватель, разориться журнал,- в результате ценный ресурс исчезнет.
Методология и/или теоретическая часть
В Российской государственной библиотеке при поддержке РФФИ грант 04-07-90056-в с 2004 года идет работа по созданию инструмента способного сохранить необходимый библиотеке ресурс, путем его автоматического скачивания и предоставить возможность поиска по скачанным ресурсам.
В настоящее время работа близится к завершению, и нам удалось создать работоспособное и, что немаловажно, переносимое решение, которое, как нам кажется, может быть использовано в любой заинтересованной организации или любым исследователем для формирования своей собственной электронной библиотеки путем скачивания из Интернета необходимых ресурсов.
Мы поставили перед собой задачу сделать программное обеспечение достаточно универсальное, настраиваемое, несложное в установке, распространяемое бесплатно, с исходными кодами, с помощью которого можно создать архив ресурсов Интернет.
Что же в итоге у нас получилось.
Наша система состоит их трех модулей: каталог ресурсов, архив ресурсов, полнотекстовый поиск в архиве.
Все модули могут функционировать самостоятельно, могут быть установлены на отдельные компьютеры и взаимодействовать между собой по сети.
Каталог ресурсов – это база данных, реализованная на PostgreSQL (выбор СУБД во многом определялся требованием свободного распространения). Обращение к БД производится двумя путями. Для ввода библиографического описания (БО) и редактирования его, а также для поиска по элементам БО разработан WEB интерфейс, позволяющий вести работу с любого компьютера в Интернет.
WEB интерфейс может быть использован для работы студентов, собирающих в Интерне материал по заданной преподавателем темы.
В соответствии с определенной администратором роли, вводящий может только вводить или и редактировать чужие записи. Такая роль может быть отведена, например, руководителю студенческого коллектива. В систему встроена проверка на дублирование, поэтому один и тот же ресурс не будет описан дважды. Форматом описания ресурсов выбран Dublin Core Metadata Element Set (DC MES). Это формат уже стал стандартом de facto в практике описания ресурсов Интернет. Использование этого формата поможет в случае обмена между архивами различных университетов. Стандарт с одной стороны достаточно подробен для описания ресурса, а с другой стороны достаточно прост для освоения не только опытными библиографами, но и обычными студентами.
Для проведения административных операций типа переиндексирования базы, ввода новых пользователей и экспорта-импорта записей была разработана специальная клиентская программа, работающая под Windows и выполняющая все эти функции. Кроме БО в базе данных содержится информация о параметрах для скачивания полных текстов статей в нашем случае или просто отдельных страниц сайтов в общем случае. Администратор задает время, через которое нужно проверить сайт на обновление и количество копий, которые нужно хранить. Модуль скачивания основан на свободно распространяемой программе WGET, работающей под всеми версиями UNIX или под Windows. Эта программа была доработана, и к ней был дописан отдельный модуль на PHP

Рис.1. Архитектура хранилища.
В настоящий момент в файловой системе одновременно хранится три копии сайтов. В начальный момент работы программа скачивает полную версию сайта в соответствии с заданным URL (если журнал распределен по двум или более серверам, то указываются несколько URL). Эта копия будет храниться в файловой системе для сравнения при последующем скачивании. Для полнотекстового поиска эта копия проходит обработку для удаления рекламных блоков и прочей непрофильной информации. Администратор задает список регулярных выражений, в соответствии с которыми удаляется ненужная информация. Через заданный для этого сайта интервал времени происходит повторное скачивание. При этом происходит сравнение скачиваемых страниц с копией, оставленной для сравнения. Если различия (в байтах) больше 0, но меньше 20%, от скачиваемого объема, то происходит обычная операция замены старой копии новой, результат прошлого скачивания становится второй копией. Если отличия больше чем 20%, то информация об этом доставляется администратору для принятия решения о допустимости замены копии. Возможны случаи, изменения содержимого сайта без изменения URL малоценной информацией, и при этом необходимо избежать затирания содержимого сохраненного сайта.
На приведенном рисунке (рис. 2) показано как выглядит для пользователя наш архив. Кроме списка журналов приводятся даты закачки и объем скачанной информации.
Search for: Г
Search! | Extended
Powered by mnoGoSearch ■ free web «arch ensuie software
Please enter one or more words and press Search.
Letter: All c_j^-JLAJ-J-JLAJmLJLJJ±JLQ_n_2_c_J_XJLJ< Ч Э Ю Я
Page: 12 3 4 5 6 7 8 910 11 12 13 14
id название |
дата последней закачки |
объём |
|
105 Компания: деловой еженедельник |
па. |
10 03.2006 09:45:53 |
1.118.283.133 |
100 Кодекс-info |
IL1 |
10.03,2006 04:58:31 |
1.104.410.320 |
260 Учительская газета |
111 |
24.03.2006 14:33:59 |
1.103.566.681 |
7<,^ Вестник Европы. Журнал европейской культуры |
1Ы |
27.03.2006 00:35:28 |
1,098.970.885 |
269Урал |
щ |
27.03.2006 13:44:18 |
1.098.921.486 |
193 Звезда |
гы |
19.03.2006 10:45:59 |
1.098.900.304 |
190 Октябрь |
LU |
18.03.2006 01:06:04 |
1.098.800.765 |
189 Дружба народов |
1Ы |
17.03.2006 23:07:44 |
1.098.765.981 |
188 Иностранная литература |
1И |
17.03.2006 21:29:23 |
1.098.721.686 |
192 Вопросы литературы |
[Ы |
18.03.2006 0 5:21:3 0 |
1.098.697.081 |
187 Новая юность |
IU |
15.03.2006 20:00:19 |
1.098.631.211 |
Г |
ГГ 1 |
Рис.2. Архив пользователя
Предлагаемое программное обеспечение было испытано в РГБ для создания архива онлайновых научных журналов.
Журналы шаблоны управление
1 2 3 4 5 б 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 2.
28 29 30 31 32 33 34 35 36 37 38 39
id название |
ЧИСЛО копий |
дата частота последней резуль закачки |
|||
^ Гуманитарные 1 науки в Сибири |
[L] |
2 |
30 |
30.12.2005 12:53:02 |
в проще. |
2 Credo |
[L] |
2 |
30 |
30.12.2005 12:53:08 |
в проще, |
3 Русский журнал [L] |
2 |
30 |
09.03.2006 13:56:03 |
+ |
|
4 Топос |
[L] |
2 |
30 |
30.12.2005 12:53:12 |
в проще. |
Web Journal of |
Рис.3. Журналы, шаблоны, управление.
Опыт показал, что скачивание происходит корректно, многие ошибки в HTML разметке скачиваемых страниц отображаются правильно. Наличие шаблонов, несмотря на некоторые дополнительные трудозатраты по их созданию, уменьшает необходимое дисковое пространство и количество информационного шума при поиске Для контроля скачивания был разработан WEB интерфейс, позволяющий задавать параметры скачивания и проводить мониторинг процесса.
Сейчас в нашем архиве около 800 журналов, общий объем архива составляет 300 гб.
При архивировании онлайновых ресурсов необходимо учитывать некоторые юридические аспекты. Во первых нужно помнить, что в Интернете у всего есть хозяин. На скачиваемые материалы, как правило, у кого то есть имущественные права. Если с неимущественными правами проще, главное не забывать указывать автора используемого материала, то с имущественными – сложнее. Если Вы хотите опубликовать скачанный материал в Интернет, то есть открыть к нему доступ всем желающим, то Вы должны заключить договор с правообладателем на использование его материала или с РОМС, который сам будет разбираться с автором и перечислять ему деньги за каждое скачивание. В РГБ разработаны типовые договора для организаций создающих ресурсы и для отдельных авторов.
Для полнотекстового поиска в скачанных массивах мы используем бесплатное программное обеспечение mnogosearch , увязанное в общий пользовательский web интерфейс.
Заключение
Описанное программное обеспечение по плану работ по гранту РФФИ 04-07-90056-в будет готово для распространения в конце 2006 года. Первый модуль – каталог уже готов и может быть выслан всем желающим, обратившимся к автору статьи.