Рекомендательная система на основе обобщѐнного указателя журналов
Автор: Атаева О.М., Тучкова Н.П., Дегтев А.Г.
Журнал: Онтология проектирования @ontology-of-designing
Рубрика: Методы и технологии принятия решений
Статья в выпуске: 4 (58) т.15, 2025 года.
Бесплатный доступ
Рассматривается тематическая классификация журналов на примере «Белого списка» – Единого государственного перечня научных журналов. Ставится задача автоматизации анализа тематического направления журналов. Используется Государственный рубрикатор научно-технической информации (ГРНТИ), классификаторы: Универсальная десятичная классификация (УДК), Mathematics Subject Classification (MSC) и др., а также онтология семантической библиотеки предметных областей SciLibRu. На основе данных о журналах «Белого списка» и источников в библиотеке SciLibRu составляется обобщѐнный указатель, который включается в граф знаний SciLibRu. Пользователи библиотеки SciLibRu получают возможность навигации по разным аспектам информации о журналах (тематика, категория и др.), что упрощает выбор журнала для возможной публикации. Приводится пример поиска журнала, основанный на семантическом анализе статьи для определения еѐ тематической принадлежности к предметной области журнала из «Белого списка». Сформированный обобщѐнный указатель в библиотеке SciLibRu позволяет задавать на естественном языке запросы, связанные с выбором издания для публикации. Предложенная методология может быть распространена на другие предметные области (данные о конференциях и др.). Практическая значимость исследования состоит в автоматизации подбора тематики журнала для подготовленной научной статьи.
Белый список журналов, онтология предметной области, рекомендательная система, классификатор, обобщѐнный указатель журналов, семантическая библиотека
Короткий адрес: https://sciup.org/170211140
IDR: 170211140 | УДК: 004 | DOI: 10.18287/2223-9537-2025-15-4-598-613
Текст научной статьи Рекомендательная система на основе обобщѐнного указателя журналов
Тематический анализ научных публикаций – актуальное направление исследований, по-поскольку для составления обзоров и рецензий необходимо просматривать множество публикаций, чтобы найти тематически близкие. В связи с высокими требованиями к публикациям и конкуренцией в науке необходимо учитывать статус научных журналов (квартиль и другие наукометрические показатели). Актуальными становятся публикации в журналах Белого списка (БС), который планируется обновлять в реальном времени.
В данной работе предложен подход к семантическому описанию научных журналов БС и включение этих описаний в онтологию библиотеки SciLibRu для представления необходимой информации в виде графа знаний (ГЗ) [1], где узлы представляют различные точки входа в указатель (логическую структуру) по этим данным. На базе объединённых данных формируется обобщённый (тематический) указатель (ОУ) журналов, который используется в качестве базы знаний (БЗ) рекомендательной системы. Данный подход позволяет определить с помощью навигации по ГЗ к каким предметным областям (ПрО) относится содержание научной работы и получить список рекомендуемых журналов из БС, наиболее близких по тематике этой работы. На основе предложенного ОУ разработана рекомендательная система, интегрированная в библиотеку SciLibRu и предоставляющая функцию подбора журнала, тематика которого наиболее соответствует содержанию рассматриваемой статьи. Практическая ценность предлагаемого решения заключается в упрощении и ускорении процесса выбора журнала для публикации за счёт использования знаний в ГЗ SciLibRu.
-
1 Постановка задачи
Поиск публикаций отличается от поиска журналов по многим признакам. Для поиска публикаций в библиографических базах и в библиотеках предлагается поиск по автору, названию, ключевым словам, индексу классификатора. Применение методов искусственного интеллекта расширило возможности поиска публикаций по тематическим признакам, признакам схожести, цитированию и другим связям [2, 3]. Поиск журналов связан с задачей выбора журнала для возможной публикации, который подходит тематически и соответствует некоторым показателям (специальностям Высшей аттестационной комиссии (ВАК) и др.). Тематика, квартиль, условия публикации, учитываются авторами в соответствии с индивидуальными потребностями. Классификацию по этим признакам можно сделать объективно на основе открытых данных, используя известные библиографические ресурсы (, , , , , и др.). В открытых и коммерческих разработках поля для поиска остаются такими же, как и для поиска публикаций: ключевые слова, названия, авторы, аннотации и полные тексты. Практика использования этих полей поиска без применения средств семантического анализа приводит к шуму в поисковой выдаче. Некоторые примеры таких ресурсов приведены в таблице 1.
Таблица 1 – Ресурсы тематического поиска журналов для публикации рукописи
|
№ |
Название |
Тематический поиск |
Доступ |
Поля для поиска |
|
1 |
Master Journal List |
есть для английского языка / нет для РФ |
платный |
ISSN, название для журналов из коллекции WoS |
|
2 |
Elsevier Journal Finder |
есть для английского языка |
бесплатный |
данные рукописи (аннотация, ключевые слова, цель исследований), название журнала Elsevier |
|
3 |
Springer Journal Suggester |
есть для английского и немецкого языка |
бесплатный |
данные рукописи (название, аннотация, ключевые слова), название журнала Springer |
|
4 |
Wiley Journal Finder |
есть для английского языка |
бесплатный |
данные рукописи (название, аннотация) название журнала Wiley |
|
5 |
Web of Science Master Journal List |
есть для английского языка |
бесплатный |
данные рукописи (название, аннотация) название журнала из WoS |
|
6 |
Scopus |
есть для английского языка |
бесплатный |
выбор из тематического списка Scopus по типу изданий и квартилю |
|
7 |
Math-Net.Ru |
нет |
бесплатный |
название журнала из коллекции Math-Net по алфавиту или издательству |
|
8 |
eLibrary |
есть |
бесплатный |
тематика ГРНТИ, поля БС, WoS, Scopus , РИНЦ, а также квартиль, уровень, категория |
После внедрения нейросети SciRus-tiny (разработана для семантического анализа научных текстов) [4] в библиотеке eLibrary используется тематический поиск по верхнему уровню Государственного рубрикатора научно-технической информации (ГРНТИ). Журнал может быть отнесён к нескольким рубрикам. Отдельно в списке рубрик выделены мультидисциплинарные журналы. Внутри тематической рубрики можно указать поля БС, WoS, Scopus, РИНЦ, а также квартиль, уровень, категорию.
Из таблицы 1 видно, что библиотека eLibrary предоставляет поисковые поля для выбора журнала по тематике и другим признакам, а также сервис для сравнения журналов по показателям из списка eLibrary, но нет поиска журнала для предполагаемой публикации.
В данной статье предлагается семантическое описание журналов БС включить в онтологию и ГЗ библиотеки ПрО SciLibRu и создать набор данных с тематическим разбиением. Поиск по журналам можно провести как навигацию по ГЗ с целью подбора журнала, ПрО которого наиболее близка для предполагаемой публикации (рисунок 1). Для этого предлагается применить большие языковые модели (БЯМ) для обращения к ГЗ БС.
Рисунок 1 - Схема подбора журнала из SciLibRu для предполагаемой публикации
фикации объектов (ААКО), которые обучаются на данных БС и SciLibRu.
-
2 Семантическое описание журналов и их интеграция в онтологии SciLibRu
-
2.1 Библиотека SciLibRu
-
Для интеграции семантических образов журналов применяются методы онтологического проектирования [5-8] и их представление в виде ГЗ в библиотеке SciLibRu (ранее - проект LibMeta) [9], в которой используется технология описания ПрО научных журналов [10]. В библиотеке содержатся энциклопедии, тезаурусы, классификаторы и др., семантически связанные в SciLibRu [11]. На рисунке 2 показан пример поэтапного расширения ПрО «Математика» в LibMeta, когда в библиотеку добавляются данные об источниках (статьях журнала «Механика композиционных материалов и конструкций» (МКМК), .
На разных этапах добавляются тематические разделы, термины и данные в виде публикаций. Онтологическое описание этих источников образует единый ГЗ, где понятия и объекты из разных источников семантически связаны между собой [9-12].
Известные системы рекомендаций включают совместную фильтрацию и рекомендации на основе содержания [13, 14] с использованием средств коммуникации с объектами, предназначенными для выбора (списки, изображения и т.д.). В данной работе выбор предлагается осуществлять с помощью навигации по ГЗ БС, а результат представляется в виде списка с обоснованием рекомендаций (рисунок 3).
Этап 1
Без классификации по подразделам
Этап 2 Классификация и выделение подразделов
Этап 3 Выделение терминов для подразделов
Этап 4 Классификация источников данных и обогащение описания предметной области
Рисунок 3 - Схема предлагаемого метода: интеграция данных БС и источников знаний в ОУ на базе ГЗ SciLibRu и использование ОУ для рекомендации журналов по пользовательскому запросу
Семантические описания журналов БС интегрированы в онтологию SciLibRu, встроены в ГЗ SciLibRu после предобработки и распределены по ПрО. Рукопись статьи проходит предобработку (семантическое сжатие текста) для выявления структуры текста, ключевых слов и связей с онтологией SciLibRu . Полученные связи позволяют обратиться к ГЗ SciLibRu и затем к ГЗ БС, чтобы получить список рекомендаций, близких к тематике рукописи журналов.
-
2.2 Интеграция семантических образов журналов в библиотеке SciLibRu
Интеграция БС в SciLibRu включает предобработку данных и достраивание онтологии SciLibRu и ГЗ SciLibRu. Для построения ОУ научных журналов БС в SciLibRu используются сведения из открытых массивов научных данных: систем OpenAlex (данные на английском языке) и портала ВИНИТИ (данные русском языке):
В результате получен итоговый набор данных , включающий примерно 8000 ключевых фраз для 64 тематических рубрик верхнего уровня ГРНТИ. Этот корпус текстов стал основой для обучения модели автоматической классификации объектов (журналов) по тематикам.
На рисунке 4 приведена иллюстрация распределения количества ключевых фраз по рубрикам верхнего уровня ГРНТИ (каждый столбец гистограммы соответствует одной рубрике ГРНТИ). Видно, что класс распределения ключевых фраз неравномерен – присутствует дисбаланс классов . В данной задаче это проявляется в склонности модели «игнорировать» малочисленные классы и чаще предсказывать рубрики, для которых в обучении было много примеров. Чтобы компенсировать этот эффект, применено взвешивание классов [15-17] при обучении моделей: меньшим по объёму классам назначаются повышенные веса ошибки.
В результате предобработки сформирован набор данных, который был использован ААКО тематической классификации журналов БС по рубрикам ГРНТИ верхнего уровня.
Согласно [10] для каждого нового источника БС данных создаётся модель ГЗ источника в виде онтологии, включающая журналы, как узлы, и их связи. Онтологическая модель SciLibRu достроена : введён новый тип объектов «Журнал» и определены типы связей для этого типа объектов.
Распределение ключевых слов основных рубрик
Рисунок 4 – Гистограмма распределения ключевых фраз по рубрикам верхнего уровня ГРНТИ
Для построения ГЗ БС формируются основные типы семантических связей:
Пример 1 показывает структуру фрагмента графа знаний БС и его связей в формате RDF , где журналы связаны с кодами ГРНТИ и MSC через свойства hasClassification и hasMapping (выполняется семантическое связывание данных при интеграции БС в SciLibRu ).
Journal hasClassification GRNTI
GRNTI hasMapping MSC
Journal hasKeyword Keyword
Journal publishedIn Publisher libmeta:journal/12345 rdf:type libmeta:Journal libmeta:journal/12345
libmeta:journal/12345
libmeta:journal/12345
libmeta:journal/12345
libmeta:issn "2313-1039"
libmeta:title "Онтология проектирования"@ru libmeta:hasClassification libmeta:MSC_68
libmeta:hasClassification libmeta:UDC_004
libmeta:UDC_004 skos:prefLabel "Информационные технологии..."@ru libmeta:MSC_68 skos:prefLabel "Computer science"@en
Пример 2 показывает SPARQL -запрос для выборки журналов по теме «Информационные технологии» и связанных кодов MSC (ГЗ SciLibRu поддерживает тематический поиск через формальные семантические запросы).
SELECT ?journal ?title ?msc
WHERE {
?journal a libmeta:Journal ;
libmeta:title ?title ;
libmeta:hasClassification ?grnti .
?grnti skos:prefLabel "Информационные технологии"@ru ;
libmeta:hasMapping ?msc .
?msc skos:prefLabel ?mscLabel .
}
Пример 3 показывает SPARQL -запрос, позволяющий находить журналы, одновременно имеющие связи с ГРНТИ и MSC , что обеспечивает перекрёстную навигацию между различными классификационными системами.
SELECT ?journal ?grnti_code ?msc_code
WHERE {
?journal a libmeta:Journal ;
libmeta:hasClassification ?grnti, ?msc .
?grnti a libmeta:GRNTI .
?msc a libmeta:MSC .
?grnti libmeta:code ?grnti_code .
?msc libmeta:code ?msc_code .
}
Пример 4 показывает запрос на извлечение всех ключевых слов журналов, относящихся к конкретной рубрике ГРНТИ (в SciLibRu можно использовать ГЗ для анализа семантического поля журналов и расширения онтологических связей).
SELECT ?journal ?keyword
WHERE {
?journal a libmeta:Journal ;
libmeta:hasClassification libmeta:GRNTI_27.35 ;
libmeta:hasKeyword ?keyword .
}
Для решения задачи классификации по темам (отнесение журнала к одной или нескольким рубрикам верхнего уровня ГРНТИ) применены алгоритмы машинного обучения [18, 19]. Векторизация входных текстовых данных (описаний рубрик и журналов) проведена с ис- пользованием моделей «мешок слов» и TF-IDF, распределённых семантических представлений (эмбеддингов) слов и текстов – модели Word2Vec, FastText – и специализированной мо- дели SciRus-tiny [4]. SciRus-tiny является нейросетевой моделью, обученной на корпусе научных текстов, и хорошо учитывает специфику научной лексики [20–22].
Обучение модели логистической регрессии на описанном наборе (~8000 текстов, размерность эм-беддинга 300) заняло нескольких минут. Объём данных сравнительно невелик, поэтому затраты памяти и времени не стали ограничивающим фактором. Формирование эмбеддингов SciRus-tiny для всех ключевых фраз и описаний журналов выполнялась
Таблица 3 – Влияние обогащения данных на качество тематической классификации
|
Модель SciRus-tiny |
Доля рубрик с данными |
Точность |
Полнота |
F1 |
|
Логистическая регрессия – без обогащения |
58 из 64 |
0.80 |
0.60 |
0.68 |
|
Логистическая регрессия – с обогащением |
64 из 64 |
0.90 |
0.85 |
0.88 |
примерно 15–20 минут. Таким образом, разработанный подход к классификации может быть масштабирован на большее число классов или документов, не требуя значительных вычислительных ресурсов.
-
3.2 Граф знаний и обобщённый указатель журналов Белого списка
В результате исследований получено тематическое разбиение журналов БС по рубрикам ГРНТИ. При моделировании учтены наукометрические показатели, указанные в описаниях БС. В библиотеке SciLibRu создан набор данных из описаний журналов, снабжённых связями с классификаторами, рубрикаторами и ПрО онтологии SciLibRu, по которому осуществляется навигация на основе представления в виде ГЗ журналов БС. Ключевые слова из аннотаций журналов дополнены ключевых слов из соответствующих статей энциклопедий, тезаурусов и другого содержания SciLibRu. Это позволило сделать тематическое разбиение БС более детальным. Это позволяет создать ОУ журналов с навигацией через узлы ГЗ журналов БС, ко- торые указывают на тематические и наукометрические показатели журнала.
На рисунке 5 представлен пример сведений о журнале из БС, загруженном в библиотеку SciLibRu , с установленными семантическими связями, которые были выявлены в процессе семантического анализа.
ОУ включает связь журнала с рубрикой, полученной на основе обученной модели, и представляет собой часть ГЗ журналов БС, используемую на этапе рекомендаций.
Предлагаемый подход позволяет выполнять се-
Ki шдшмиигалн или■шаишиаж! илилшиаишмпи или швяионмпи или
LibMeta
СЕМАНТИЧЕСКАЯ БИБЛИОТЕКА
Библиотека математических ресурсов
5* На главную J Список объектов 4 Создать объект
Просмотр объекта
Онтология просктиропания | Ontology of designing
Тип объекта Бсль’й список
URI hltp7.1ibmctnrutoWhitrLiM«31922
Атрибуты
ГРНТИ - 20.00.00 - Ин< ЬО РМаТИК а тмимл яЬдМ СРМЖИ >.Р«ПТЫ
У ровень -1 дчмшк оОк«тм [ММШК iwutnw
ISSNS - 2313-1039
Название ж урнала • Онтология проектирования | Ontology of designing
Теги
^ ГЬдм1иром1ъ в Удлтигь
онтология проектирования computer science & en g ineerin g тезаурус анализ кр ите риев и мод елей мето ды проектиомния си енаони проектирования п роектирование системы и
Рисунок 5 - Сведения о загруженном в библиотеку журнале Белого списка со связями мантический поиск по ГЗ журналов и находить подходящие журналы, даже если в запросе пользователя не указаны точно те же слова, что и в описании журналов, поскольку ГЗ через связи и эмбеддинги найдёт близкие по смыслу совпадения.
-
3.3 Пример использования обобщённого указателя
-
1) Пользовательский запрос. Пользователь формулирует запрос, содержащий предполагаемую тему научной работы (публикации), в свободной форме. Это может быть список ключевых слов или краткое описание. Цель запроса – определить, в каком журнале можно опубликовать (или найти для чтения) работу по данной теме. Например: «Где опубликовать работу на тему дифференциальные уравнения в приложениях?» или «Где искать публикации по теме дифференциальные уравнения в приложениях?» Такие запросы отражают ключевые понятия («дифференциальные уравнения», «приложения»), но не указывают прямо рубрику или название журнала.
-
2) Семантический анализ запроса. Поступивший запрос очищается и нормализуется (приводится к стандартной форме, устраняются стоп-слова, выполняется лемматизация ключевых терминов) и преобразуется в эмбеддинг тем же способом, который использовался при формировании эмбеддингов описаний журналов и рубрик. В результате получается вектор, характеризующий семантическое содержание запроса.
-
3) Поиск по семантической близости. Выполняется основная часть рекомендации – сопоставление запроса с узлами ГЗ БС:
-
■ вычисляется косинусное сходство между эмбеддингом запроса и эмбеддингами всех рубрик, осуществляется сопоставление, какой рубрике наиболее соответствует запрос;
-
■ выбирается несколько рубрик с наибольшими значениями сходства (например, три наиболее близкие рубрики).
По каждой из выбранных рубрик из ГЗ БС извлекаются связанные журналы – те, которые были отнесены к данной рубрике (также можно добавить журналы, для которых косинусное сходство их эмбеддинга с эмбеддингом запроса превышает заданный порог: если рубрика не совпала, это позволяет учесть случаи, когда журнал связан с близкой, но не точно совпадающей рубрикой).
-
4) Формирование результата. Пользователю отображается список найденных рубрик и соответствующих журналов, где заявленная тема представлена (или близка по смыслу). По каждому рекомендуемому журналу приводится основная информация: название, ISSN, тематические рубрики, а также ссылка на профиль журнала (в библиотеке SciLibRu или внешней системе, напр. eLibrary ). Обосновывается рекомендация , т.е. указывается, почему этот журнал предложен (например, совпадение ключевых слов, высокая семантическая близость).
Использование ОУ позволяет найти информацию о подходящих журналах, даже если в запросе пользователя не упоминаются те же самые слова, что были использованы в описании журналов. Например, на запрос: «В каком журнале опубликовать статью с ключевыми словами « ontology design, semantic relationships, subject ontology, vector algorithms, knowledge graph » пользователь получает в качестве ответа рубрику ГРНТИ «20.00.00 – Информатика» и перечень журналов данной тематики.
В случае ГЗ БС, интегрированного в библиотеку SciLibRu, язык запросов SPARQL используется для извлечения информации из графового представления данных (он представляет сложности для неподготовленного пользователя). Запрос на естественном языке составляет необходимое условие работы с данными ПрО. В [27] рассмотрено применение БЯМ к работе с ПрО математики в SciLibRu для автоматического формирования SPARQL запросов.
На рисунке 6 приведён пример визуализации запроса и ответов в векторном пространстве с использованием метода главных компонент [28]. В запросе: knowledge graph, ontology, large language models перечислены не только ключевые слова, но и тематика исследований. В ответ получен список журналов:
-
1) Ontology of designing – 0.91 ;
-
2) Natural Language Processing Techniques – 0.84;
-
3) Logic, programming, and type systems – 0.83;
-
4) Topic Modeling – 0.83;
-
5) Advanced MIMO Systems Optimization – 0.83;
-
6) Handwritten Text Recognition Techniques – 0.83, где число указывает на степень близости эмбеддингов запроса и журнала.
Близость запроса и ответов определяется на основе косинусного расстояния между запросом и результатами, который определяется выше некоторого порога k (на рисунке 6 k =0.7). Рисунок 6 сформирован автоматически путём преобразования эмбеддингов журналов в пространство размерности 2. Метод главных компонент находит два направления (главные компоненты, оси для визуализации), вдоль которых данные имеют наибольшую изменчивость, т.е. сохраняет максимум информации из исходного набора векторов. Все объекты проецируются на две оси. Полученные координаты используются для построения точек на плоскости, где каждая точка соответствует журналу из БС. Близкие точки соответствуют семантически близким объектам ( крестики ). На рисунке 6 запрос помечен звёздоч-
Рисунок 6 – Запрос: knowledge graph, ontology, large language models помечен звёздочкой. Результирующий список журна- лов, отмечен крестиками
кой, а соответствующие ему близкие журналы – крестиками. Это представление векторизо- ванных данных на плоскости позволяет получить представление о том, насколько связаны данные, а также насколько близки результаты к запросу и между собой. Видно, что крестики сгруппированы в одной зоне векторного пространства и близки к запросу (звёздочке). Иллюстрации на основе метода главных компонент позволяют качественно оценить достоверность полученных оценок близости эмбеддингов запроса и журнала.
-
4 Применение к другим областям знаний
Предложенная методика не привязана жёстко к сущности «журнал» онтологии LibMeta (SciLibRu) и может быть распространена на другие типы научных источников, например, «конференции». Если имеется аналогичный информационный ресурс, такой, как БС или реестр значимых конференций по различным ПрО, можно включить эти данные в онтологию SciLibRu согласно предложенной методике. Потребуется сформировать тематическое описа- ние конференций (например, по ключевым словам из докладов, секциям и областям знаний, охватываемым конференцией), обучить модель классификации конференций по рубрикам ГРНТИ или иной рубрикации и построить ОУ конференций. В ГЗ SciLibRu появятся узлы «Конференция» со связями с темами и классификаторами, что даст возможность рекомендательной системе подбирать релевантные конференции для представления доклада.
Заключение
В работе предложен подход к интеграции и тематическому разбиению журналов с использованием методов онтологического моделирования и машинного обучения. На основе рубрикатора ГРНТИ и его соответствий с другими классификаторами сформирован ОУ для научных журналов из БС. В полученной онтологической модели информация о журналах (тематика, метрики, индексирование и пр.) связана семантическими отношениями, что обеспечивает несколько вариантов входа ОУ при поиске и навигации. Для автоматического отнесения журналов и публикаций к тематическим разделам применены методы обработки текстов: составлены тематические профили рубрик на основе ключевых фраз и на этих данных обучены ААКО. Эксперименты показали возможность классификации журналов по тематикам ГРНТИ с помощью ААКО, что объясняется использованием высокого уровня рубрикации и специальной обработки дисбаланса классов и использования профильных эмбеддин-гов. Применение ГЗ для представления интегрированных данных о журналах позволяет создать рекомендательную систему, помогающую подобрать журнал для публикации. ГЗ обеспечивает навигацию по данным: пользователь может начать поиск с любой интересующей информации (тематика, ключевые слова статьи, наличие журнала в определённых базах, требуемый квартиль и др.) и получить набор релевантных изданий. Методы машинного обучения позволяют автоматизировать пополнение ГЗ новыми связями, определяя тематическую рубрику новой статьи или журнала, что снижает трудозатраты экспертов. Созданная рекомендательная система в сфере научных коммуникаций способна учитывать множество различных факторов, объяснять предложенные рекомендации и стать полезным инструментом для исследователей при планировании публикаций, облегчая выбор журнала.