Big data в библиотеках и научных исследованиях
Автор: Фролов А.В., Верещагина Е.А., Золкин А.Л.
Рубрика: Управление сложными системами
Статья в выпуске: 2, 2023 года.
Бесплатный доступ
Целью данного исследования является системный анализ цифрового менеджмента библиотек (особенно его инструментария) на основе больших данных и их анализа (Big Data, Data Mining), а также других аналитических инструментов решения актуальных задач эволюции цифровых библиотек, площадок для читателей-исследователей. Используя методы системного подхода, в частности моделирования, проводится классификация подходов и задач управляемости библиотечными ресурсами. Представлен сравнительный анализ возможностей библиотек (темпов, объемов и др.) в условиях наличия белого (гауссова) шума, мешающего консолидации данных, их фильтрации для оценки процессов. Описана формальная модель библиотечного мониторинга, позволяющая эффективно исследовать глубинные библиотечные связи. Предложенная модель используется для преодоления разрывов связей.
Библиотека, цифровая библиотека, библиотечная экосистема, аналитика, вебометрика, менеджмент
Короткий адрес: https://sciup.org/148326847
IDR: 148326847 | DOI: 10.18137/RNU.V9187.23.02.P.167
Текст научной статьи Big data в библиотеках и научных исследованиях
В библиотечном деле количество документов, источников информации возрастает динамически не только по объему, но и по характеру данных, их важности. Большие данные позволяют обрабатывать и управлять как структурированными, так и неструктурированными массивами данных.
Библиотекам необходимы адаптивные информационно-технологические решения для изменившихся потребностей читателей и своих возможностей. Цель исследования – системный анализ задач цифровых библиотек, центров и площадок для читателей-исследователей.
Методы исследования
Библиотекам нужны ИТ-ресурсы сопровождения потребительских запросов, приложений и сервисов [1], а также библиотекари, владеющие цифровым инструментарием ав-
Фролов Александр Владимирович системный администратор отдела информационных технологий, Морской государственный университет имени адмирала Г.И. Невельского, город Владивосток. Сфера научных интересов: сетевые технологии, программирование, моделирование систем и процессов. Автор более 30 опубликованных научных работ. SPIN-код: 7889-3026, AuthorID: 887541.
томатизации и интеллектуализации библиотечных процессов, – библиотекари-исследователи, помогающие в интеллектуальном поиске данных [2; 3].
Современные библиотеки активны в развитии компетенций специалистов библиотечного дела. Появились новые менеджеры в библиотеках: стюард (data steward) данных (data manager), исследований (management librarian), цифровых данных (digital data specialist), контента (content curator) и др. [4]. Они отвечают за управление в процессах сбора, обработки и хранения данных, их актуализацию (использование), мониторинг и организацию, правовую поддержку [5; 6].
Эти специалисты – цифровые посредники (intermediators), поддерживающие знания, фильтрующие их от информационного шума (белого, гауссова) с целью повышения качества поиска и его релевантности.
Мягкие навыки (soft skills) библиотекаря способствуют развитию библиотечной экосистемы «Библиотека 4.0», а именно:
-
• развитию отношений с исследователями;
-
• повышению ИТ- и гуманитарных мультикомпетенций библиотекарей;
-
• повышению навигационных возможностей в информационной среде;
-
• работе в команде;
-
• повышению отдачи от информационных продуктов, сервисов (аналитики, дайджестов и др.) и востребованности услуг по их переработке и упорядочиванию (примеры – ЭБ РГБ [7], ГПНТБ СОРАН [8]);
-
• развитию индивидуальных технологий информационно-библиотечной деятельности.
Big Data в библиотеках и научных исследованиях
Решение указанных задач требует библиотечной аналитики, стратегии и особых инструментов, которые можно классифицировать по следующим критериям:
-
- вебметрический – счетчики, лог-анализаторы, внутренняя аналитика, маркетинговая аналитика;
-
- вебаналитический – анализ сайтов, соцмедиа;
-
- условия доступа – бесплатный, условно-бесплатный, коммерческий;
-
- защищенность – открытый, закрытый (инвайты), смешанный;
-
- оптимизация – контента, репутации, маркетинга;
-
- функциональность – юзабилити, карты поведения, дерево целей.
Результаты
Мониторинг ситуаций в библиотечной экосистеме стал динамичным, но одновременно и сложным. BigData (термин введен в 2008 г. изданием Nature ) – системный термин для технологий анализа и использования больших и неструктурированных массивов данных, обработка которых ранее была невозможной [1; 9]. Базируется на реальном режиме и соблюдении требований «5V»:
-
1) Volume – применение инновационных технологий;
-
2) Variety – параллельность обработки данных (независимо от формата, источника данных);
-
3) Velocity – темп, скорость обработки потока данных;
-
4) Value – извлечение полезных свойств из данных;
-
5) Veracity – релевантность данных и связей.
В РФ актуальна мобилизация библиотечных знаний.
Система Big Data позволяет сосредоточиться на технологиях обработки данных, их анализе, Data Mining. Потребуется сравнительный анализ с реальными показателями библиотек, их использованием (темп, объем, воронка, отклонения). Временным рядам свойственен белый шум, мешающий консолидации данных (корреляция, гипотезы, избыточность и др.), но их фильтрация дает ценную информацию.
Без релевантной аналитики невозможно принятие решения, ситуационное прогнозирование. Библиотекари применяют различный инструментарий – свой на каждом этапе цикла актуальности данных.
Big Data [10] в библиотечном деле и исследованиях имеет следующие преимущества:
-
• упрощение и оперативность мониторинга;
-
• рост читательской аудитории;
-
• взаимодействие с потребителями данных и их поставщиками, рост его темпа.
Big Data помогает создавать профиль модели потребителя, что снижает издержки обработки данных, сложность прогноза и мониторинга. Модели больших библиотечных данных многомерны и сложны. Но распределенная обработка в библиотечных узлах (кластерах) данных позволяет лучше понимать контекст данных. Здесь необходимы вычисления в памяти (IMC), обработка «на лету», применение предикативной аналитики.
Рассмотрим информационную библиотечную экосистему, опирающуюся на профили читателей, объектов, представляемых тематическими связями и ориентированных на группу пользователей минимальной достаточности.
Пусть I = { i 1,..., i „ } - элемент экосистемы (определенная группа задач, потребителей). Каталог библиотечных ресурсов K = 1 1 ,..., I N , где i j е I , - i -й ресурс, а j принадлежит классу информации S (предметно ориентированных по данным D ).
Востребованность ресурсов по различным группам аудитории за период T = t 1,..., t k различна. Частота запросов f k ( i j ) :
fmax = max(ft, (ij),.,ftk (ij )) , где fmax – максимум из всех частот запросов к библиотечным ресурсам; ft – частота за- просов к ij на промежутке tk .
Ранжирование по востребованности производим по индексу, который позволяет фильтровать данные K :
Wk = "p" , f max
Определим шкалу востребованности элементов W K = { W k } , чтобы построить классы востребованности библиотечных ресурсов.
Модель инфологической обработки (вычислений) позволяет обрабатывать большие данные в оперативной памяти, что дает следующие преимущества:
-
• упрощение анализа (сокращение уровней структурирования) данных;
-
• повышение адаптивности и релевантности модели;
-
• активность структур запросов, их фильтрация в структурах памяти.
Сначала идентифицируем классы атрибутов сущностей, которые соответствуют потребностям анализа. Детализация данных – задача библиотекаря, предметного аналитика.
Ключевые базы данных и знаний (далее – БД и БЗ) библиотечной экосистемы определим следующим образом:
-
• БД запросов, профилей, задач и ситуаций;
-
• БЗ сценариев;
-
• БД-БЗ отслеживания функций, сценариев, устойчивости;
-
• БЗ интерфейсной поддержки;
-
• БД-БЗ мониторинга;
-
• БЗ-БД оценки и решений.
Привлекаются экспертные, эвристические, статистические и другие методы.
Оценивать устойчивость можно по формуле n K = S / ^«iSi, i=1
где S – инфологический показатель потенциала экосистемы; Si – аналогичный структурный (модульный) показатель; n - число подсистем; a i - коэффициент важности (вес) фактора i .
Заключение и выводы
Идентификация библиотечных событий основывается на Big Data. Без Data Analytics эффективно решать идентификационные задачи в реальном режиме невозможно. Исследование глубинных связей, Data Mining помогают в решении этой проблемы. Таким образом, можно сделать вывод, что выполненный анализ и предложенная модель могут быть использованы для преодоления «разрывов» связей.
Big Data в библиотеках и научных исследованиях
Список литературы Big data в библиотеках и научных исследованиях
- Редькина Н.С. "Надпрофессиональные" навыки и профессиональные знания библиотечного специалиста: требования времени // Библиотековедение. 2019. Т. 68. № 6. С. 647-658.
- Фролов А.В. Машинное обучение: типы и модели // Системный администратор. 2021. № 4 (221). С. 94-95.
- Yumashev A., Koneva E., Borodina M., Lipson D., Nedosugova A. Electronic apps in assessing risk and monitoring of patients with arterial hypertension // Prensa Medica Argentina. 2019. Vol. 105. No. 4. P. 235-245.
- Brochu L., Burns J. Librarians and Research Data Management. Review: Commentary from a Senior Professional and a New Professional Librarian // New Review of Academic Librarianship. 2019. Vol. 25. No. 1. P. 49-58.
- Казиев В.М., Казиев К.В., Казиева Б.В. Основы правовой информатики и информатизации правовых систем. М.: ИНФРА-М, 2011. Сер. "Вузовский учебник". 978-5-9558-0157-5.
- ISBN: 978-5-9558-0157-5 EDN: QRSUOT
- Чирков М.С., Лачинина Т.А., Чистяков М.С. Знания и информация как синергия платформенного подхода цифровизации глобального развития // Свободная мысль. 2020. № 5 (1683). С. 37-44.
- Давыдова Н.Р. Электронная библиотека РГБ: этапы развития и особенности формирования цифровых коллекций // Библиотековедение. 2019. Т. 68. № 2. С. 144-154.
- Ударцева О.М. Менеджмент библиотечных веб-ресурсов // Научные и технические библиотеки. 2020. № 2. С. 105-124.
- Золкин А.Л., Мунистер В.Д. Проектирование цифровых экосистем окружающего интеллекта, сенсорных и компьютерных сетей: монография. М.: Русайнс, 2022. 148 с. 978-5-4365-92671.
- ISBN: 978-5-4365-9267-1 EDN: LZYEEM
- Фролов А.В., Титова А.А., Верещагина Е.А. BigData и виртуальные ЦОД // Промышленные АСУ и контроллеры. 2022. № 2. С. 25-29.