Роль информационно-поискового тезауруса в тематическом поиске
Автор: Соколова Ж.В.
Журнал: Культура: теория и практика @theoryofculture
Статья в выпуске: 1 (22), 2018 года.
Бесплатный доступ
Рассматривается роль информационно-поискового тезауруса в тематическом поиске. Показаны преимущества использования тезауруса при составлении поисковых предписаний и обеспечении релевантности поиска в автоматизированных информационных системах.
Информационно-поисковые системы, поиск информации, информационно-поисковые языки, информационно-поисковый тезаурус, базы данных, апк, цнсхб
Короткий адрес: https://sciup.org/144159914
IDR: 144159914
Текст научной статьи Роль информационно-поискового тезауруса в тематическом поиске
СПЕЦИАЛЬНЫЕ БИБЛИОТЕКИ. СОКОЛОВА Ж.В. РОЛЬ ИНФОРМАЦИОННОПОИСКОВОГО ТЕЗАУРУСА В ТЕМАТИЧЕСКОМ ПОИСКЕ
Введение . Современная информационно-поисковая система (ИПС) – это автоматизированная поисковая система, реализованная на средствах электронно-вычислительной техники, представляющая собой совокупность технических, программных и лингвистических средств, а также информационных массивов и их носителей. ИПС предназначена для реализации информационных потребностей пользователей, то есть для выявления в некотором множестве документов всех тех, которые посвящены указанной теме и удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые факты, сведения, данные. Поиск будет эффективным, если каждый документ имеет формализованное описание на том же информационно-поисковом языке (ИПЯ), на котором составлен запрос. Как бы ни была совершенна ИПС, между ней и пользователем необходим посредник, хорошо знающий предмет, область знания, которую изучает пользователь и возможности поисковой системы. Успех поиска во много зависит от квалификации специалистов, занятых аналитико-синтетической обработкой информации, от того, насколько полно будут раскрыты ими проблемы, отраженные в первичном документе, и насколько правильно они будут переведены с естественного языка на формализованный язык ИПС. Результаты семантического поиска зависят также от того, какие ИПЯ используются в поисковой системе, насколько полно они отражают современное состояние области знаний, а также от уровня знаний самого пользователя в специальной области и грамотности в вопросах информационного поиска. (2, с. 9-13).
С помощью данных ИПЯ в процессе аналитико-синтетической обработки создается поисковый образ документа, выражающий основное смысловое содержание документа в свернутом виде для реализации информационного поиска в базе данных (БД).
Использование методик индексирования на различных ИПЯ способствует унификации обработки документов, гарантирует отнесение документов одной тематики в одно место, способствует преодолению субъективизма в определении места документа в ИПЯ, способствует точности, полноте и однозначности отображения информации в БД. Именно от точности и единообразия описания исходной информации языковыми средствами зависит релевантность (степень соответствия содержания документа, найденного при поиске, содержанию информационного запроса) и полнота поиска. (1, с. 15-19).
Повысить эффективность поиска можно, преодолевая такие особенности естественного языка как синонимия, омонимия, нечеткость представления отдельными понятиями предметного множества. В наибольшей степени семантическому контролю подвергается дескрипторный язык, основным инструментом которого является тезаурус.
Целью исследования является изучение роли информационно-поискового тезауруса (ИПТ) в тематическом поиске.
Методика исследования. Работа выполнена на материалах политематической базы данных «АГРОС», генерируемой ЦНСХБ, содержащей более 1 900 млн. документов. Тематический охват БД – сельское хозяйство, пищевая промышленность, лесное хозяйство, рыбное хозяйство, охрана окружающей среды, а также смежные науки и отрасли. При составлении тематических запросов использовались возможности ИПС «Артефакт». Работа проводилась в соответствии с различными методическими материалами и инструкциями, разработанными в ЦНСХБ.
Содержание работы .
При поиске информации в БД пользователь сталкивается с проблемой, каким именно образом можно найти нужные ему документы. Как правило, использование естественного языка при поиске дает большую полноту (количество найденных документов) в ущерб релевантности. Специальные ИПЯ разработаны и используются с целью краткого, точного и единообразного отражения содержания документов. Формулирование запросов на ИПЯ повышает релевантность и оперативность поиска. (3, с. 172-173). Одним из них является дескрипторный язык, отображаемый дескрипторами ИПТ.
ИПТ как лексический инструмент ИПС представляет собой постоянно обновляемый контролируемый машинный словарь научных терминов, отобранных с учетом их значимости и частоты встречаемости в документах БД и прошедших специальную лингвистическую экспертизу и обработку. Термины ИПТ (дескрипторы и аскрипторы) упорядочены по систематическому и алфавитному принципам с указанием на существующие между ними смысловые связи иерархического и неиерархического типа (парадигматические отношения).
Основные функции тезауруса следующие: сбор, нормализация и систематизация используемой в научной литературе лексики; индексирование документов и запросов; обеспечение согласованного, единообразного и формализованного представления информации в БД и ее продуктах; обеспечение полноты и точности информационного поиска путем программной реализации иерархических отношений и отношений синонимии; формально-логический контроль терминов индексирования БД; функция терминологического справочного пособия.
В ЦНСХБ разработан Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию. На данный момент ИПТ объемом более 49 тыс. терминов охватывает все отрасли АПК и достаточно полно отражает современное состояние сельскохозяйственной науки и практики.
Лексические единицы тезауруса – это термины, используемые в научной литературе, и общезначимая лексика. Основу структуры тезауруса составляют иерархические отношения, термины сгруппированы по принципу подчинения узких конкретных понятий понятиям широкого характера. Например, широкий термин зерновые культуры является вышестоящим по отношению к узким, подчиненным ему, терминам пшеница, рожь, овес, ячмень, кукуруза и другие зерновые культуры. За счет иерархических связей ИПТ осуществляется автоматическое расширение терминов тезауруса. Благодаря этому, например, документ о пшенице войдет в результат поиска как по запросу пшеница , так и по запросу зерновые культуры , что отвечает требованиям релевантности и полноты поиска. Многие понятия в ИПТ отражены не одним, а несколькими терминами, являющимися синонимами. В запросе может быть использован любой из них: крс или крупный рогатый скот ; колорадский жук или Leptinotarsa decemlineata ; вентиляция или вентилирование . При этом поиск будет проводиться по основному термину.
Рассмотрим особенности тематического поиска на конкретных примерах в ИПС «Артефакт» БД «АГРОС».
Воспользуемся возможностями простого поиска на естественном языке. Предположим, нас интересуют проблемы фитомелиорации нарушенных земель. Формулируем поисковое предписание (рисунок 1).
База данных АГРОС
Простой поиск
Сложный поиск
Поиск по правилам Артс
Отметить все / Снять отметку
Новые поступления в базу данных Дгрос
В Электронный каталог книг
О Электронный каталог журналов
0 Электронный каталог статей
U Авторефераты диссертаций
U Депонированные рукописи
О Каталог Редкая и ценная сельскохозяйственная книга
Термины
Автор[ы] очидил. Искать ।
итрмелиррация нарушенных земель
О Документы из других библиотек
U Каталог ФАО
О Каталог электронных ресурсов
Рисунок 1 – Формулировка простого поискового предписания
Проводим поиск и получаем результаты (рисунок 2).
<В портфель> - упаковать и записать в портфель группу документов Запрос: (/ЛЗГЛ /ЛТЕР/ЛРТЗ /ЛКЛС /ЛПРМ /АРЕФ (фитомелиорация :2 нарушенных :2 зе>
Электронный каталог статей:
аналитическая роспись 1985-1989 (1)
аналитическая роспись 1990-1995 (1)
аналитическая роспись 1996-2000 (1)
аналитическая роспись 2001-200 5 (1)
аналитическая роспись 2006-2010 (2)
Всего найдено документов: 6
Рисунок 2 – Результаты простого поиска
Найдено всего 6 документов. Воспользуемся возможностями сложного поиска на языке ИПТ. Для этого в тезаурусе находим нужные термины и вставляем их в соответствующее поле (рисунок 3).
База данных АГРОС Сложный поиск
Поиск по правилам Артефакта
Шифр хранения |
7 |
Автор[ы] |
7 |
Колл.автор[ы] |
7 |
Заглавие |
7 |
Вид док-та |
|
Рубрики ГРНТИ |
|
Тезаурус |
фитрмелиррация и нарушенные земели |
Термины |
7 |
Язык |
|
Страна |
|
Выходные данные |
|
Год издания |
7 |
Oaicnrb поля запроса |
Искать |
Рисунок 3 – Формулировка сложного поискового предписания
Проводим поиск и получаем результаты (рисунок 4).
[Ввод запроса]
<В портфель> - упаковать и записать в портфель группу документов Запрос: (/ЛТЕР /ЛРТЗ (фитомелиорация и нарушенные :0 земли))
Электронный каталог книг:
Книги на иностранных языках (3)
Книги на русском языке (15)
Электронный каталог статей:
аналитическая роспись 1985-1989 (23)
аналитическая роспись 1990-1995 (18)
аналитическая роспись 1996-2000 (36)
аналитическая роспись 2001-2005 (23)
аналитическая роспись 2006-2010 (51)
аналитическая роспись 2011-2015 (49)
аналитическая роспись с 2016 (13)
Всего найдено документов: 231
Рисунок 4 – Результаты сложного поиска
Найден 231 документ. Это значительно больше, чем в предыдущем запросе. Чем это может быть вызвано? При первом запросе поисковое предписание составлено на естественном языке, во втором – на языке тезауруса. Внешне запросы похожи, но во втором случае запрос сделан более корректными терминами (рисунки 5 и 6).
I ввод запроса । статистика поиска j портфель
Запрос: (/ЛТЕР/АРТЗ (фитомелиорация и нарушенные :0 земли)) База: аналитическая роспись с 2015 (Найдено документов - 13) Оглавление: 1 2
-
1 о. Использование сидеральных культур для рекультивации нарушенных земель и улучшения качества саженцев облепихи и жимолости [В т.ч. влияние сидерации на плодородие серых лесных почв в питомнике]
. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . .
. . . ФИТОМЕЛИОРАЦИЯ.
-
2 о. Обоснование динамики структурно-агрегатного состояния моделей техноземов при биологическом освоении в условиях Никопольского марганцеворудного бассейна
. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . .
-
3 о. Опыт применения робинии ложноакациевой (Robinia pseudoacacia I) в рекультивации тер ри коников Донецкого кряжа
. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . .
. . . ФИТОМЕЛИОРАЦИЯ.
-
4 о. Развитие искусственно созданного на биологическом этапе рекультивации фитоценоза в условиях Крайнего Севера
. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . .
. . . ФИТОМЕЛИОРАЦИЯ.
-
5 <>. Reclamation efficiency of municipal sewage sludge and selected plant species for soilless post-flotation lime ground covering the surface after the borehole exploitation of sulfur [Оценка эффективности рекультивации пустошей, образовавшихся после окончания эксплуатации скважин по добыче серы, с использованием осадка городских сточных вод и некоторых видов фитомелиорантов.
. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . .
. . . ФИТОМЕЛИОРАЦИЯ.
-
6 о. Динамика развития искусственно созданного растительного покрова в условиях Крайнего Севера после проведения биологического этапа рекультивации
. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . .
-
7 о. Формирование лабильного органического вещества в процессе биологической рекультивации при использовании торфяных препаратов
. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . .
. . . ФИТОМЕЛИОРАЦИЯ.
-
8 о. Биологическая рекультивация сельскохозяйственных земель (оленьих пастбищ) на полуострове Ямал
. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . .
Рисунок 5 – Документы, найденные при сложном поиске
-шхр: П 80000 2014 1
■'АВТ: Танюкевич В.В. (Новочеркасская государственная мелиоративная академия).; Запривода М.А.
-зле Опыт применения робинии ложноакациевой (Robinia pseudoacacia 1) в рекультивации террикоников Донецкого кряжа
'вых: Научный журнал Российского НИИ проблем мелиорации. 20'14; N 1. - С. 83-93
-дат 2014
-прм: Рез. англ..-Библиогр.:с.92
+Реферат
-
- TRN: 1457396
'вид: Статья из журнала
-
- язк: Русский
-
- РУБ: 68.31.26.37
-
- УЖ 631.618
-
- тер; НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). ОТВАЛЫ ГРУНТА (Mine spoil) [ПРОМЫШЛЕННЫЕ ОТВАЛЫ]. РЕКУЛЬТИВАЦИЯ (Reclamation). СУЛЬФАТЫ (Sulphates). ФИТОМЕЛИОРАЦИЯ. РОБИНИЯ (Locust (tree)) [АКАЦИЯ БЕЛАЯ: ЛЖЕАКАЦИЯ]. ROBINLA PSEUDO AC ACLA. ПРОДУКТИВНОСТЬ. ТАКСАЦИОННЫЕ ПОКАЗАТЕЛИ (taxation indices) [ТАКСАЦИОННАЯ ХАРАКТЕРИСТИКА]. ПОЧВООБРАЗОВАНИЕ (Soil formation). ГУМУС (Humus). РОСТОВСКАЯ ОБЛ. ~ "
-РТЗ: FABACEAE [LEGUMINOSAE; БОБОВЫЕ]. FABALES. PAPILIONOIDEAE [FABOIDEAE; МОТЫЛЬКОВЫЕ]. ROBINIA. БИОРЕКУЛЬТИВАЦИЯ (biorecultivation) [БИОЛОГИЧЕСКАЯ РЕКУЛЬТИВАЦИЯ]. ДЕКОРАТИВНЫЕ ДРЕВЕСНЫЕ РАСТЕНИЯ (Ornamental woody plants). ДЕКОРАТИВНЫЕ РАСТЕНИЯ (Ornamental plants) [ДЕКОРАТИВНЫЕ КУЛЬТУРЫ]. ЗЕМЕЛЬНЫЕ РЕСУТСЫ (Land resources). КАВКАЗ. МЕЛИОРАЦИЯ [С-Х МЕЛИОРАЦИЯ]. ОРГАНИЧЕСКОЕ ВЕЩЕСТВО ПОЧВЫ (Soil organic matter). ПОЧВА (Soil). ПРИРОДНЫЕ РЕСУРСЫ (Natural resources). РФ [РОССИЙСКАЯ ФЕДЕРАЦИЯ]. СЕВЕРНЫЙ КАВКАЗ СНГ [СОЮЗ НЕЗАВИСИМЫХ ГОСУДАРСТВ]. СОЛИ НЕОРГАНИЧЕСКИХ КИСЛОТ (Inorganic acid salts; inorganic salts). СОЛИ (Salts). СТРАНЫ АТЭС. СТРАНЫ ЕВРАЗЭС. СТРАНЫ МИРА. СТРАНЫ ТАМОЖЕННОЙ СОЮЗА ЕВРАЗЭС. ТАКСАЦИЯ. ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ ОКРУГ
Рисунок 6 – Образец найденного документа
Попытаемся сделать более сложный запрос. Например, нас интересует информация о беспривязном содержании коров черно-пестрой породы.
Составляем поисковое предписание в шаблоне простого поиска по ключевым словам (рисунок 7).
беспривязное содержание коров черно-neci
Искать
Термины Автор[ы] | Оиисшть |
Рисунок 7 – Поисковое предписание в шаблоне простого поиска
Получаем следующие результаты (рисунок 8).
-
<В портфель> - упаковать и записать в портфель группу документов
Запрос: (/ЛЗГЛ /-ТЕР /ЛРТЗ /-КЛС /лПРМ /-РЕФ (беспривязное :2 содержание :2 коров :2 мерно-пестрой :2 породы))
Электронный каталог статей:
аналитическая роспись 1985-1989 (1)
аналитическая роспись 1990-1995 (1)
аналитическая роспись с 2016 (1)
Всего найдено документов: 3
Рисунок 8 – Результаты простого поиска
Теперь составляем поисковое предписание в шаблоне сложного поиска в поле тезауруса (рисунок 9).
Шифр хранения
Автор [ы]
Колл. автор[ы] Заглавие
Вид док-та Рубрики ГРНТИ Тезаурус
Термины Язык
Страна
Выходные данные Год издания

О4иститъ поля запроса
Искать
Рисунок 9 – Поисковое предписание в шаблоне сложного поиска
Получаем следующие результаты (рисунок 10).
<В портфель> - упаковать и записать в портфель группу документов
Запрос: (/ЛТЕР/ЛРТЗ (коровы и черно-пестрая :0 порода и беспривязное :0 содержание))
Электронный каталог статей:
аналитическая роспись 1985-1989 (4)
аналитическая роспись 1990-1995 (11)
аналитическая роспись 1996-2000 (9)
аналитическая роспись 2001-2005 (11)
аналитическая роспись 2006-2010 (25)
аналитическая роспись 2011-2015 (29)
аналитическая роспись с 2016 (18)
Всего найдено документов: 107
Рисунок 10 – Результаты сложного поиска
Анализируем результаты поиска. Видим, что при втором запросе найдено гораздо больше документов. Очевидны преимущества составления запроса по тезаурусу.
Еще один пример. Пользователь ищет информацию по фитофторе, не зная, что это не совсем корректная формулировка понятия «фитофтороз», и получает следующие результаты (рисунки 11 и 12).
фитофтора
Искать
Термины Автор[ы] I Озистить I
Рисунок 11 – Некорректная формулировка искомого понятия
Электронный каталог книг:
Книги на иностранных языках (4)
Книги на русском языке (4)
Электронный каталог статей:
аналитическая роспись 1985-1989 (220) аналитическая роспись 1990-1995 (220) аналитическая роспись 1996-2000 (64) аналитическая роспись 2001-2005 (18) аналитическая роспись 2006-2010 (19) аналитическая роспись 2011-2015 (1) аналитическая роспись с 2016 (1)
Всего найдено документов: 551
Рисунок 12 – Результаты некорректного запроса
Если бы поисковое предписание было составлено с использованием ИПТ, то было бы найдено значительно большее количество документов (рисунки 13 и 14).

Рисунок 13 – Корректная формулировка искомого понятия
Электронный каталог книг:
Книги на иностранных языках (32)
Книги на русском языке (23)
Электронный каталог статей:
аналитическая роспись 1985-1989 (215)
аналитическая роспись 1990-1995 (619)
аналитическая роспись 1996-2000 (769)
аналитическая роспись 2001-2005 (620)
аналитическая роспись 2006-2010 (494)
аналитическая роспись 2011-2015 (317)
аналитическая роспись с 2016 (104)
Всего найдено документов: 3193
Рисунок 14 – Результаты корректного запроса
При использовании для поиска информации нормализованной лексики ИПТ можно достичь максимально эффективных результатов, так как унифицированная терминология позволяет преодолеть такую особенность естественного языка, как неоднозначность (одно и то же понятие может быть сформулировано по-разному).
Роль ИПТ в тематическом поиске сложно переоценить. Обширный запас научной лексики тезауруса помогает составлять поисковые предписания максимально конкретными и корректными, сократить время поиска и получить релевантную информацию.
Выводы. Использование ИПТ как основного инструмента дескрипторного языка обеспечивает эффективный и качественный поиск информации по различным отраслям знаний в БД «АГРОС».
Список литературы Роль информационно-поискового тезауруса в тематическом поиске
- Индексирование документов базы данных ЦНСХБ. Методические указания // состав. Пирумова Л.Н., Харченко Л.Т. - Москва, 1995. - 35 с.
- Пирумова Л.Н., Харченко Л.Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС. (Методические материалы) - Москва, 2001. - 70 с.
- Харченко Л.Т., Климова Е.В. Оптимизация стратегии поиска в базе данных «Агрос» // Библиотечное дело - 2005: деятельность библиотек и развитие информационной культуры общества / Моск. гос. ун-т культуры и искусств. - Москва, 2005. - С. 172-173.