Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству

Автор: Тимофеевская С.А.

Журнал: Культура: теория и практика @theoryofculture

Статья в выпуске: 1 (22), 2018 года.

Бесплатный доступ

Представлена информация о международных базах данных по сельскому хозяйству «AGRICOLA», «AGRIS», «CAB ABSTRACTS» и используемые ими тезаурусы. Освещены некоторые проблемы совместимости баз данных, создания единого информационного пространства, проблемы доступа к информации. Описаны структура и принципы построения тезаурусов этих баз данных и возможности использования их особенностей для совершенствования тезауруса, создаваемого в ЦНСХБ, и создания русскоязычной версии тезауруса «AGROVOC». Приведены примеры терминов из тезаурусов по терминологической области животноводства. Использование некоторых принципов и элементов зарубежных тезаурусов позволит усовершенствовать отечественный тезаурус и сделать его совместимым с зарубежными.

Еще

Сельское хозяйство, терминология, базы данных, тезаурусы, информационно-поисковые языки, лингвистическое обеспечение

Короткий адрес: https://sciup.org/144159921

IDR: 144159921

Текст научной статьи Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству

Наиболее авторитетными БД, охватывающими весь спектр вопросов сельского хозяйства (в том числе животноводство), пищевой промышленности и проблем, смежных с ними, являются 3 БД: «AGRICOLA» (БД National agricultural library (NAL), Национальной сельскохозяйственной библиотеки США), «AGRIS» (БД Food Agricultural Organization (FAO) - Продовольственной и сельскохозяйственной организации Объединенных Наций) и «CAB ABSTRACTS» (БД Commonwelth Agricultural Bureaux International (CABI): Международное сельскохозяйственное бюро стран Британского содружества). Из отечественных БД по объему и тематическому охвату с ними может сравниться только БД ЦНСХБ «АГРОС». Для индексирования документов и поиска в БД «АГРОС» используется разработанный Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ТЦ). Зарубежные БД используют в качестве лингвистического обеспечения рубрикаторы - коды тематических рубрик и тезаурусы. Наиболее интересны усилия по совместимости основных средств индексирования и тематического поиска в БД «AGRICOLA», «AGRIS», «CAB ABSTRACTS» - тезаурусов этих БД. Идея создания единого тезауруса, объединяющего два уже существующих тезауруса (CABI и AGRIS (AGROVOC)), появилась еще в 1990-х годах, но до сих пор не реализована, как раз из-за проблем их совместимости. У этих тезаурусов, несмотря на то, что они англоязычные, разные концепции построения словарных статей, присвоения статуса терминам и т.д. Но даже и в английском языке обнаруживаются разные терминологические предпочтения, которые выяснились, например, в период, когда NAL использовала для индексирования своей базы данных тезаурус CABI. Оказалось, что и между ними были различия и NAL вводила в тезаурус CABI свои национальные термины с соответствующей пометкой. БД «AGRIS» создается усилиями более чем 150 стран, которые поставляют в нее информацию о национальных документах своих стран, поэтому ее тезаурус «AGROVOC» многоязычный, существуют версии на 29 языках, что для стран-участников решает проблему совместимости их баз данных с БД «AGRIS». В 2010 г. ЦНСХБ разработала русскоязычную версию этого тезауруса объемом более 32,9 тыс. терминов, эквивалентных терминам тезауруса «AGROVOC».

Цель работы – пополнить, обобщить и сравнить сведения о тезаурусах для более эффективной работы с ТЦ и русскоязычной версией тезауруса «AGROVOC».

В работе использовались теоретические методы исследования: метод анализа и селекции информационных источников и метод обобщения и систематизации информационных данных.

Содержание и результаты. Тезаурус БД «CABABSTRACTS»(ТСА) служит для формирования запроса и поиска в БД, а также формирования самой БД. По ТСА формируются поисковые предписания, индексируются документы для БД и изданий РЖ (реферативных журналов). Новые термины появляются в процессе индексирования документов и существуют некоторое время на правах ключевых слов. В ТСА каждый дескриптор имеет вышестоящие и нижестоящие понятия. Вышестоящее понятие приписывается автоматически к выбранному дескриптору. Используется принцип инверсии в сложных дескрипторах.

Словарная статья имеет: BT - вышестоящий термин, NT - нижестоящий термин, rt - ассоциации, HN - исторические заметки, AF - американская форма, BF - английская форма.

В CABI существует группа контроля качества индексирования. Проверки осуществляются, как только документ поступил в БД. Контроль осуществляется на разных этапах технологического процесса создания поискового образа документа. В БД существует формально-логический контроль написания терминов тезауруса.

На данном этапе наибольший интерес как инструмент поиска в базе данных для нас представляет тезаурус «AGROVOC» (ТА). Он используется для классификации, индексирования, описания содержания и маркировки (включая текст-майнинг) документов, а также для поиска библиографических данных в электронных библиотеках и хранилищах данных по широкому тематическому диапазону: сельское хозяйство, лесное хозяйство, аквакультура и рыбное хозяйство, водное хозяйство, вопросы механизации и строительства, природные ресурсы, загрязнение окружающей среды, питание и здоровье человека, образование и др. На сегодняшний день ТА доступен на 29 языках в виде концептуальной схемы (RDF/SKOS-XL), где концепты, их этикетки (лейблы/метки/пометки) и связи/отношения являются основными структурными элементами. (3). RDF (Resource Description Framework) – модель представления данных в виде, пригодном для машинной обработки. SKOS (Simple Knowledge Organisation System) – модель организации знаний для семантической паутины, призванная обеспечить взаимодействие различных информационных систем за счет стандартизации тезаурусов.

Концепты – это всё то, что обозначает понятия нашей предметной области (заменяет реальные предметы), набор необходимых терминов. Из-за многоязычности ТА концепты идентифицированы универсальными цифровыми идентификаторами ресурсов (URI), например: http://aims/fao/org/aos/agrovoc/c_8163; «молочная телятина» - это этикетка для данного URI (или URL) на русском языке.

Термины (этикетки) - это реальные лексические единицы (слова или словосочетания) со строгой и точной дефиницией, четкими семантическими границами для выражения концептов. Они выражают один и тот же концепт на разных языках (выражены через расширение SKOL-XL). Используются предпочтительные этикетки (дескрипторы – в обычном тезаурусе), альтернативные этикетки (для выражения синонимов или устранения неоднозначности – UF – use for). Для выражения иерархических связей используются предикаты (утверждения), соответствующие классическим связям в тезаурусе: вышестоящие/нижестоящие – broader/narrower (BT/NT). Неиерархические отношения выражают понятия «родства» между концептами через skos:related (в классическом тезаурусе – ассоциация RT) и специфический словарь связей «Agrontology». Пример термина из ТА:

TERM: (c_8163) RU: молочная телятина

Ψ

LANGUAGE          1. AR: ل حمال عجلالرض یع

  • 2.     CS: telecímaso

  • 3.     DE: KALBFLEISCH

  • 4.     EN: Veal

  • 5.     ES: Carnedeternera

  • 6.     FA: هگ و ش ت گو سال

  • 7.     FR: Viandedeveau

  • 8.     HI:        (                      )

  • 9.     HU: borjúhús

  • 10.     IT: Carnedivitello

  • 11.     JA: 子牛肉

  • 12.     KO: 송아지고기

  • 13.     LO:                ນ

  • 14.     PL: Cielęcina

  • 15.     PT: Carnedevitela

  • 16.     RU: молочная телятина

  • 17.     SK: teľaciemaso

  • 18.     TH:        ว

  • 19.     ZH: 犊牛肉

    HIERARCHY


    (c_6211) продукция

o  (c_438) продукция животноводства

  •  (c 4669) мясо

  •  (c 8163) молочная телятина

    BT

    1.  (c_4669) мясо

    RT

    • 1.  (c_1219) телята

    • 2. (c_861) говядина

      UF                    1. (c_32400) мясо телят

Около 80% концептов ТА – растения и животные. Они могут быть найдены под главным концептом «Организмы».

Каждый концепт ТА может быть подкреплён следующими типами информации:

  • •    терминологическая информация: все термины/этикетки на языках, представляющих концепт;

  • •    структурная информация: отношения/связи между концептами и терминами;

  • •    семантическая информация: определения и/или графические изображения концепта;

  • •    редакционная информация: редакционные примечания и ограничительные пометки.

Концептуальная схема ТА обеспечивает структуру организационных единиц для каждого домена, связанного с сельским хозяйством.

Ранее сотрудниками отдела АСОД ЦНСХБ были проведены исследования, которые выявили, что:

  • •    англоязычные тезаурусы 2 международных БД по сельскому хозяйству имеют большое сходство по тематическому охвату, лексическому составу, построению и элементам словарных блоков, отношениями между терминами, но имеющиеся расхождения в этих областях не позволяют считать их совместимыми в существующем виде;

  • •    ни один из англоязычных тезаурусов не совместим полностью с отечественным тезаурусом;

  • •    англоязычные тезаурусы представляют большую ценность в практической работе с терминами, подготавливаемыми для ввода в ТЦ, в совершенствовании структуры его словарных блоков и словарных «деревьев»;

  • •    невозможна их адаптация к отечественной терминологии и научным традициям (1).

В процессе отбора лексики для ТЦ происходит сближение терминологического состава ТЦ, ТСА и ТА, так как одним из оснований для включения термина в состав ТЦ является наличие его английского эквивалента в ТСА и ТА. Примеры терминов из ТЦ:

КЛЕТКИ

Примечание: растений и животных

Иноязычный эквивалент: CELLS

Эквивалентный термин в другом тезаурусе: Cells

ТЕЛЯТИНА

Иноязычный эквивалент: VEAL

Эквивалентный термин в другом тезаурусе: Babybeef

Входит в микротезаурус: Ветеринария; Животноводство; Пищевая промышленность

B1 МЯСО

При разработке словарных статей ТЦ используются лексические примечания, как в зарубежных тезаурусах, вводится предпочтительная связь “use and” (используй в комбинации =+), а также инверсная форма в ТА многословных терминов. Например:

РЕМОНТНЫЕ ТЕЛКИ

Иноязычный эквивалент: replacementheifers

Входит в микротезаурус: Ветеринария; Животноводство

=+ РЕМОНТНЫЙ МОЛОДНЯК

=+ ТЕЛКИ

Выводы. С целью облегчения доступа пользователя в зарубежные БД по сельскому хозяйству решаются вопросы сопряжения терминологии с помощью ТЦ. Использование некоторых элементов ТСА и ТА позволяет сделать отечественный тезаурус более совершенным, соответствующим международным стандартам, способствуют его совместимости с зарубежными тезаурусами.

Список литературы Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству

  • Пирумова Л.Н. К вопросу о совместимости средств лингвистического обеспечения баз данных по сельскому хозяйству // Библиотеки в меняющемся мире: новые технологии и новые формы сотрудничества: междунар. науч. конф. Судак, 3-11 июня 2000 г.: материалы конф. - Судак, 2000. - С. 397-401.
  • Пирумова Л.Н. Лингвистическое обеспечение по вопросам АПК: проблемы разработки и совместимости // Матер.1V научно-практич. Семинара «Электрон. ресурсы биб-к», 30-31 окт.2008, С.-П., 2008. - С. 126-135.
  • АГРОВОК: Многоязычный тезаурус сельскохозяйственной терминологии / http://aim.fao.org/ru/about
Статья научная