Системы организации знаний: собрания, реестры, сервисы

Бесплатный доступ

В статье обсуждается понятие систем организации знаний. Рассматриваются собрания и реестры систем организации знаний, а также терминологических сервисов, используемых в библиотечно-информационной деятельности и отраженных в Базовом регистре тезаурусов, онтологий и классификаций (BARTOC). Приводится описание BARTOC. Анализируются виды собраний систем организации знаний по различным основаниям. Дается исторический очерк развития соответствующей деятельности в России. Приводится список существующих 129 реестров с веб-адресами.

Системы организации знаний, собрания, реестры, сервисы

Короткий адрес: https://sciup.org/144163280

IDR: 144163280

Текст научной статьи Системы организации знаний: собрания, реестры, сервисы

Системы организации знаний (Knowledge organization system, далее KOS) -относительно новый термин в библиотечно-информационной науке (LIS), заменивший в последние годы известные термины языки индексирования, информационные или информационно-поисковые языки .

Соответственно понятие KOS включает все традиционные библиотечнобиблиографические средства: авторитетные файлы, классификации, таксономии, рубрикаторы, предметные заголовки, тезаурусы. Также к KOS относятся современные средства представления знаний – фреймы, семантические сети, тематические карты, графы знаний и, конечно, онтологии. Многие (но не все) авторы включают в состав KOS такие инструментально-семантические средства, как языки разметки, системы метаданных и схемы данных. Наконец, в соответствии с трактовкой Международного общества по организации знаний (ISKO) [1] к KOS относятся терминологические системы и сервисы – глоссарии, словари, справочники, базы данных. Хотя терминологические средства традиционно не относятся к LIS, содержательная связь терминологии и KOS несомненна. Заметим, что в обзорной литературе конкретные KOS часто называются словарями.

Быстрый рост числа KOS и их широкое распространение привело к появлению большого числа систем и сервисов, которые осуществляют разные услуги в области KOS, прежде всего сбор, учет, хранение, навигацию, доступ и поиск. Сами эти системы могут иметь разные названия - репозитории, архивы, банки данных и т.д. В данной статье мы будем их называть собраниями или реестрами.

В предлагаемой статье содержится аналитический обзор собраний и реестров KOS, а также сервисов в этой области. Наш анализ основан на базе данных BARTOC [2], где каталогизировано 129 реестров KOS. BARTOC описан более подробно. Эта база не включает российские реестры KOS, поэтому им посвящен отдельный раздел.

Виды собраний и реестров KOS

В Приложении приведен перечень 129 собраний (реестров) KOS. Приводится наименование каждого реестра, перевод названия, либо пояснение на русском языке и адрес домашней страницы. Перечень упорядочен по алфавиту наименований.

Описание каждого реестра в БД BARTOC включает:

  • 1.   Аннотация

  • 2.   Наименование

  • 3.   URI

  • 4.   Сервисы (API)

  • 5.   Домашняя страница

  • 6.   Дата создания

  • 7.   Словари, доступные в данном реестре

  • 8.   Тип

терминологический сервис, хранилище терминологии

Реестры предоставляют доступ к терминологии данного KOS, либо через API (сервис терминологии), либо другими способами (различаются реестр или собрание терминологии). BARTOC включает 91 собрание или репозиторий с полным доступом к словарному содержимому, т.е. реестры, через которые доступны термины и понятия, входящие в данный KOS. Другие реестры предоставляют информацию о словарях (т.е. метаданные) вместо содержания словаря как такового. Метаданные для словарей обычно содержат как описательное содержание, так и информацию об управлении и происхождении. Реестр может содержать данные о повторном использовании логических классов и свойств в словарях.

В работе М. Цзен и Ф. Майра [13] предлагается список типов поставщиков услуг на основе собраний или реестров KOS.

Многофункциональный реестр KOS. Пример – Базовый реестр тезаурусов, онтологий и классификаций (BARTOC), подробно описанный ниже.

Поставщик индивидуальных словарей . Например, EuroVo c[1] - многоязычный тезаурус Европейского союза (ЕС). Термины на европейских языках и их сопоставления с восемью другими доступны на веб-сайте или с помощью скачивания.

Отдельное учреждение как поставщик всех словарей, подготовленных в нем. Так, Библиотека Конгресса предоставляет доступ ко всем словарным массивам за все годы, обнародованный    в    Библиотеке    Конгресса.    Например,    реестр Схемы классификации включает 212 классификаций, а реестр Тематические схемы – 254

тезаурусов и других KOS.

Единый портал для национальных словарей KOS, созданных в стране. Например, финский сервис тезаурусов и онтологий FINTO позволяет как публиковать, так и просматривать десятки словарей, созданных в Финляндии. Кроме того, сервис предлагает интерфейсы для интеграции тезаурусов и онтологий в другие приложения и системы.

Портал, ориентированный на предметную область , для сбора словарей, созданных различными структурами. Например, Связанные данные культурного наследия .

Программное обеспечение , предоставляющее конечным пользователям инструменты для использования/повторного использования опубликованных словарей. Например, SKOSprovider предоставляет интерфейс, который может быть включен в приложение, чтобы позволить ему взаимодействовать с различными словарями, представленными в SKOS.

Онтология верхнего уровня , которая упрощает отображение понятий и сущностей в нескольких словарях. Например, онтология KOKO . поддерживает управление и публикацию набора взаимосвязанных приложений. Онтология Базовые словари финского языка позволяет пользователям использовать несколько онтологий как единое, совместимое, межотраслевое представление вместо отдельных онтологий. Другой пример -сервис UMBEL который предназначен для отображения онтологий и внешних словарей (OpenCyc, DBpedia, PROTON, GeoNames и schema.org) и обеспечивает связи с более чем 2 миллионами объектов Википедии.

Реестр любых словарей, опубликованных с использованием Семантической паутины . Например, на сайте LOV в настоящее время зарегистрировано более 600 словарей; все они прошли определенную проверку качества в формате связанных открытых данных. В дополнение к описательным метаданным о словаре, метаданным использования о повторном использовании свойств в словарях, административным метаданным, показывающим самые последние обновления, и техническим метаданным, касающимся выразительности с точки зрения RDF, OWL, и RDF. Подробная информация о словаре представлена с помощью статистики, такой как общее количество классов, свойств, типов данных и экземпляров.

Реестр любых продуктов связанных открытых данных , включая KOS, Например, datahu b[2]. является крупнейшим реестром LOD Авторы [13] провели анализ этого реестра в 2017 г. Было обнаружено более 11 тыс. наборов связанных открытых данных, в том числе более 1000 различных KOS.

Перечень типов, выделенных М. Цзен и Ф. Майром, может быть продолжен.

Многие системы, специализирующиеся на KOS, разработали стратегии и технологии, обеспечивающие не только доступность, но и совместимость, стабильность и масштабируемость контента и приложений, которые они предоставляют. Те сервисы, которые содержат полное содержимое KOS, а также своевременно обновляемые управленческие данные по каждому компоненту, также известны как репозитории KOS. Они могут быть одноязычными или многоязычными; количество словарей KOS, содержащихся в хранилище, может варьироваться от одного до 3 тыс. и более.

Некоторые реестры собирают KOS определенного типа. Например, собрания KOS, созданные на платформе Семантической паутины. Есть реестры, включающие только KOS, представленные на языке веб-онтологий (OWL).

В последние годы многие реестры хранят собранные KOS в определенном формате, например с использованием популярного инструмента Skosmos.

Одни сервисы предоставляют только самую последнюю версию KOS, в то время как некоторые поддерживают все версии. Дополнительные функции могут быть доступны в дополнение к поиску, просмотру, отображению и навигации. Некоторые из них также позволяют сопоставлять словари или предоставляют прямые ссылки на значения данных.

Более конкретно, реестры можно разделить по типу контента, какие именно концептуальные, лексические, и/или инструментальные средства они включают:

  • •     - Универсальные – доступ ко всем видам KOS

  • •     - Собрание тезаурусов

  • •     - Собрание онтологий

  • •     - Терминологические БД и сервисы

  • •     - Авторитетные (библиографические) KOS

  • •     - Собрание классификаций,

  • •     - Собрание систем метаданных

  • •     - Инструментальные средства для создания и поддержки KOS

  • •     - Платформы для интеграции KOS

  • •     - Сервисы для поиска и доступа

Также реестры естественно разделить по тематическому признаку (выборочные примеры дисциплин приводятся в алфавитном порядке);

  • •     - Библиотековедение

  • •     - Биомедицина

  • •     - Информатика

  • •     - Лингвистика

  • •     - Культурное наследие

  • •     - Образование

  • •     - Океанология

  • •     - Окружающая среда

  • •     - Сельское хозяйство

  • •     - Социальные науки

  • •     - Универсальные

Реестры можно разделить по статусу;

o   Международные o   Общенациональные o    Профессиональные сообщества o    Для массовых пользователей

Конечно, возможны и другие основания классификации реестров.

Базовый регистр тезаурусов, онтологий и классификаций

Наиболее представительное собрание KOS, созданное при поддержке ISKO, получило     название Базовый     регистр     тезаурусов,     онтологий     и классификаций (BARTOC) [2][3]. Это собрание представляет собой базу данных KOS, а также сервисов и реестров KOS. Всего BARTOC содержит описания св. 3,5 тыс. KOS, а также 129 других сервисов и реестров KOS.

BARTOC был основан Андреасом Ледлом как Базельский регистр тезаурусов, онтологий и классификаций в библиотеке Базельского университета, Швейцария. В 2020 году база данных перенесена на новую техническую инфраструктуру в Центральный офис Объединенной библиотечной ассоциации (VZG) Германии и переименована. Реализация полностью доступна как Open Source.

Основная цель BARTOC - собрать как можно больше KOS в одном месте, чтобы добиться большей наглядности, выделить их особенности, сделать их доступными для поиска и сопоставимыми, а также способствовать обмену знаниями. BARTOC включает KOS из любой предметной области, на любом языке, в любом формате публикации и с любой формой доступности. Интерфейс поиска BARTOC доступен на 20 европейских языках и предоставляет два варианта поиска: базовый поиск по ключевым словам и расширенный поиск.

Последний имеет следующие фильтры: тип KOS, язык, тематика, лицензия доступа, а также ссылка на сервис или реестр, через который доступны термины и понятия, образующие данную KOS.

Описания KOS включают следующий набор реквизитов:

  • •      - Аннотация

  • •      - Наименования

  • •      - Сокращение

  • •      - Тип KOS,

  • •      - Тема (предмет)

  • •      - Лицензия

  • •      - Языки

  • •      - Дата создания

  • •      - URI

  • •      - Домашняя страница

Статистика KOS по типам в базе BARTOC основана на перечне типов KOS, который был разработан в качестве основного профиля приложения Дублинского ядра Группой сетевых KOS (NKOS) на основе обзора типов KOS, составленного Марсией Цзэн [12]. Этот перечень типов приведен на табл.1.

Табл. 1. Статистика типов KOS в базе BARTOC ,

Русское наименование типа KOS

Английское наименование

Количество

KOS

1.

Авторитетный список имен

Name authority list

223

2.

Географический справочник

Gazetteer

20

3.

Глоссарий

Glossary

353

4.

Кольцо синонимов

Synonym ring

1

5.

Онтология

Ontology

723

6.

Семантическая сеть

Semantic network

7

7.

Словарь

Dictionary

92

8.

Список

List

121

9.

Схема категоризации

Categorization schema

21

10.

Схема классификации

Classification schema

956

11.

Схема предметных заголовков

Subject       heading

schema

111

12.

Таксономия

Taxonomy

105

13.

Тезаурус

Thesaurus

803

14.

Терминология

Terminology

219

Табл. 2. Топ 10 языков, на которых представлены KOS

Язык

Количество KOS

1.

Английский

1929

2.

Немецкий

763

3.

Французский

576

4.

Испанский

486

5.

Шведский

299

6.

Итальянский

228

7.

Финский

210

8.

Португальский

197

9.

Греческий

156

10.

Каталонский

141

В реквизите Лицензия указан вид лицензии, на основе которой доступен данный KOS. Всего список включает около 40 видов лицензий, в том числе 13 видов Creative Commons, самые распространенные представлены на табл. 3.

Табл. 3 Наиболее распространенные лицензии доступа к KOS

Вид лицензии

Количество KOS

Creative Commons Attribution 3.0

208

Creative Commons Public Domain Dedication

187

Open Government License 1.0

178

Creative Commons Attribution-NoDerivs 3.0

84

Creative Commons Attribution-ShareAlike 3.0

55

In Copyright (InC)

53

Creative Commons Attribution-NoCommercial-ShareAlike 3.0

46

Creative Commons Attribution 4.0

32

Creative Commons Attribution-NoCommercial NoDerivs 3.0

17

W3C Document License

16

Тематика . В качестве тематической классификации BARTOC использует Десятичную классификацию Дьюи (DDC). В табл. 4 приводится распределение KOS по первому уровню DDC.

Табл. 4: Распределение KOS по тематике

Код DDC

Рубрика

Количество KOS

0

Информатика, информационные технологии, общие работы

666

1

Философия и психология

61

2

Религия

56

3

Социальные науки

823

4

Языки

109

5

Наука

323

6

Технология

319

7

Искусство и досуг

240

8

Литература

24

9

История и география

161

Нужно отметить, что при поиске по тематике в BARTOC предъявляется как поисковый только рубрики первого уровня DDC , хотя реальные объекты в системе проиндексированы глубже. При выдаче описания KOS выдается рубрика ДДК нужного уровня. Например, El Tesaurus d'Història de Catalunya. Тематика: Пиренейский полуостров и прилегающие острова (946.) Таким образом, поиск по более глубоким рубрикам возможен, если рубрика пользователю известна. KOS также индексированы дескрипторами тезауруса EUROVOC, но они не предъявляются.

Также предусмотрен поиск по предметным рубрикам Библиотеки Конгресса, но это пока не реализовано.

В целом можно отметить, что тематический поиск в BARTOC организован неудовлетворительно. Значительная часть KOS (по оценке до половины) не имеет индексов для тематического поиска.

Конечно. можно использовать простой лексический поиск по наименованию KOS, но качество этого поиска не требует комментариев.

Выводы

В настоящее время (август 2024 г.) BARTOC содержит информацию о 3,5 тыс. классификаций, тезаурусов, онтологий и других контролируемых словарях. В дополнение к улучшенной видимости и удобству поиска с помощью словарного описания, BARTOC включает все больше и больше средств для доступа к словарному контенту. BARTOC становится центром словарных сервисов для унифицированного просмотра, поиска и повторного использования понятий и их идентификаторов. Управление доступом осуществляется путем сопоставления существующих сервисов и форматов, таких как Skosmos, SKOS и пользовательских терминологических API, с общим форматом данных на основе JSON. Все методы доступны в библиотеке JavaScript, поэтому доступ к контролируемым словарям можно добавлять в другие веб-приложения без необходимости углубляться в многочисленные спецификации API.

История российских собраний КОS

Проблема создания совместимого комплекса информационных языков для Государственной системы научно-технической информации (ГСНТИ) была поставлена еще в 1960-х гг. и получила развитие во второй половине 1970-х гг. Поскольку было очевидным, что большая часть языковых средств ГСНТИ, представляют ИПЯ посткоординатного типа - тезаурусы и дескрипторные словари, то задача их совместимости, т.е. приведения их в соответствие с требованиями информационного обмена, была сформулирована как организация их согласованного ведения. В этих условиях центр тяжести разработок был перенесен на организацию эффективной системы ведения ИПЯ. Была поставлена задача и начато проектирование автоматизированной системы ведения информационных языков (АСВИЯ) [5].

К этому времени число АСНТИ, использующих ИПЯ посткоординатного индексирования с тезаурусами, возросло без малого до ста единиц. Нужно было разработать и апробировать на практике ряд методов возможно более полного автоматизированного анализа тезаурусов Государственной автоматизированной системы НТИ (ГАСНТИ) с целью создания и согласованного ведения пересечения рабочих тезаурусов. Разработанный в 1975 г. технический проект АСВИЯ включал уже помимо описания идеологии и основных проектных решений системы весьма значительный фактический и экспериментальный материал, полученный с помощью машинного анализа фрагментов реальных словарей [5].

В 1980 г. АСВИЯ была принята в эксплуатацию и в течение 5 дет был создан фонд, включающий св. 240 отечественных КОS на традиционных и машинных носителях, в том числе; информационно-поисковые тезаурусы, дескрипторные словари, рубрикаторы и классификации. Был разработан нормативный документ, регламентирующий регистрацию тезаурусов, рубрикаторов и других KOS [10]. При регистрации проводится научнотехническая экспертиза для установления целесообразности применения языкового средства в органах ГСНТИ. Экспертиза состоит в проверке соответствия рубрикаторов, тезаурусов и систем индексирования на соответствие государственным стандартам и другим нормативно-техническим документам в части их содержания, а также формы представления как в книжном виде, так и на машиночитаемых носителях. Содержание и форма представления рубрикаторов должна соответствовать ГОСТ Р 7.0.49. Зарегистрированные локальные рубрикаторы и другие языковые средства составляют информационный фонд автоматизированной системы ведения информационных языков (АСВИЯ), поддерживаемый ВИНИТИ как головным органом ГСНТИ. В период массовой разработки отраслевых систем научно-технической информации было зарегистрировано более 200 версий локальных рубрикаторов, покрывающих практически все области экономики.

Опыт функционирования АСВИЯ описан в сборнике материалов [3].

В дальнейшем с учетом опыта АСВИЯ, а также опыта автоматизированного ведения рубрикаторов реферативного журнала ВИНИТИ была разработана Система классификационных схем (СКС). Для сопоставления классификаций в единой базе данных разработаны и внедрены новые инструментальные средства установления взаимосвязей на основе аппарата отображения рубрик (MAP-технология). Эти средства основаны на реляционной модели данных и обеспечивают формальную целостность и непротиворечивость взаимных связей. Основу модели составляет теоретикомножественное представление отображения рубрики одной рубрикации на другую рубрикацию на базе общего списка квалификаторов, используемых в формулах отображения. Подробное описание СКС представлено в книге [7].

В настоящее время создана база данных СКС, включающая полный текст следующих классификаций :[4]

  • •      - Библиотечно-библиографическая классификация (2015 г.) (ББК-

    2015/18)

  • •      - Государственный Рубрикатор НТИ России (ГРНТИ)

  • •      - Классификатор Scopus (Scopus)

  • •      - Классификатор Web of Science (WoS)

  • •      - Классификатор Организации экономического содействия и развития

(ОЭСР)

  • •      - Классификатор Российского научного фонда (РНФ)

  • •      - Классификатор Российского фонда фундаментальных исследований

    (2019 г.) (РФФИ-2019)

  • •      - Международная патентная классификация (2015 г.) (МПК-2015)

  • •      - Номенклатура специальностей научных работников (2012-2017 гг.)

(ВАК-2012/17)

В настоящий момент доступны приведенные выше классификаторы. Можно просматривать каждый из них в соответствии с иерархическими и прямыми связями рубрик. Функция просмотра отображений позволяет изучать смысловые связи выбранной рубрики со всеми классификаторами, представленными в СКС, а также осуществлять переходы по отображениям между классификаторами.

Кроме KOS, создаваемых в рамках библиотечно-информационной деятельности, в СССР была создана Единая система классификации и кодирования технико-экономической и социальной информации, (ЕСКК ТЭСИ), включающая множество классификаторов, применение которых регламентировано для государственных информационных систем. Описание современного состояния ЕСКК ТЭСИ можно найти в [8].

В настоящее время официальное опубликование, издание и распространение общероссийских классификаторов осуществляет Российский институт стандартизации (РСТ )[5]. Каталог РСТ включает 110 классификаторо в[6]. Комплект З8 официально действующих общероссийских классификаторов содержится также на сайте «Общероссийские классификаторы »[7].

Также в России создано ряд терминологических ресурсов и сервисов, не связанных впрямую с библиотечно-информационной деятельностью. Их подробное описание можно найти в монографии «Лингвистические информационные ресурсы» [6].

Следует отметить некоторые российские проекты, направленные на представление KOS в наиболее перспективном формате - связанных открытых данных на платформе семантической паутины.

Идею интеграции нескольких тезаурусов русского языка в Семантическую паутину в облаке лингвистических связанных открытых данных реализовал Д.А. Усталов [11]. См. также [4].

Еще один российский проект преобразования традиционной KOS в семантическую паутину, конкретно, Библиотечно-библиографической классификации (ББК) в связанные открытые данные, описан в работе О. А. Лавреновой [9]. Проект основан на разработанном в Российской государственной библиотеке навигаторе по разделителям генерального систематического каталога на базе ББК.

Более подробное описание этих проектов имеется также в [6].

Заключение

Опыт развития современного научного информационного пространства знаний убедительно свидетельствует, что важное место в его формировании занимают разнообразные системы организации знаний. При этом они играют решающую роль для обеспечения функциональной совместимости информационных систем, в том числе при обмене данными или интеграции, данных. Также очень важно обеспечить повторное использование разработанных KOS, которых много создается как в России, так и за рубежом. Лучшим инструментом для этого может стать преобразование KOS в связанные открытые данные на платформе Семантической паутины.

Для решения этой задачи естественным решением было бы создание реестра KOS, практически используемых в российской библиотечной и научно-информационной деятельности. Такой реестр должен стать важным компонентом инфраструктуры Единого научного информационного пространства знаний России.

Статья научная