Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству
Автор: Тимофеевская С.А.
Журнал: Культура: теория и практика @theoryofculture
Статья в выпуске: 1 (22), 2018 года.
Бесплатный доступ
Представлена информация о международных базах данных по сельскому хозяйству «AGRICOLA», «AGRIS», «CAB ABSTRACTS» и используемые ими тезаурусы. Освещены некоторые проблемы совместимости баз данных, создания единого информационного пространства, проблемы доступа к информации. Описаны структура и принципы построения тезаурусов этих баз данных и возможности использования их особенностей для совершенствования тезауруса, создаваемого в ЦНСХБ, и создания русскоязычной версии тезауруса «AGROVOC». Приведены примеры терминов из тезаурусов по терминологической области животноводства. Использование некоторых принципов и элементов зарубежных тезаурусов позволит усовершенствовать отечественный тезаурус и сделать его совместимым с зарубежными.
Сельское хозяйство, терминология, базы данных, тезаурусы, информационно-поисковые языки, лингвистическое обеспечение
Короткий адрес: https://sciup.org/144159921
IDR: 144159921
Текст научной статьи Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству
Наиболее авторитетными БД, охватывающими весь спектр вопросов сельского хозяйства (в том числе животноводство), пищевой промышленности и проблем, смежных с ними, являются 3 БД: «AGRICOLA» (БД National agricultural library (NAL), Национальной сельскохозяйственной библиотеки США), «AGRIS» (БД Food Agricultural Organization (FAO) - Продовольственной и сельскохозяйственной организации Объединенных Наций) и «CAB ABSTRACTS» (БД Commonwelth Agricultural Bureaux International (CABI): Международное сельскохозяйственное бюро стран Британского содружества). Из отечественных БД по объему и тематическому охвату с ними может сравниться только БД ЦНСХБ «АГРОС». Для индексирования документов и поиска в БД «АГРОС» используется разработанный Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ТЦ). Зарубежные БД используют в качестве лингвистического обеспечения рубрикаторы - коды тематических рубрик и тезаурусы. Наиболее интересны усилия по совместимости основных средств индексирования и тематического поиска в БД «AGRICOLA», «AGRIS», «CAB ABSTRACTS» - тезаурусов этих БД. Идея создания единого тезауруса, объединяющего два уже существующих тезауруса (CABI и AGRIS (AGROVOC)), появилась еще в 1990-х годах, но до сих пор не реализована, как раз из-за проблем их совместимости. У этих тезаурусов, несмотря на то, что они англоязычные, разные концепции построения словарных статей, присвоения статуса терминам и т.д. Но даже и в английском языке обнаруживаются разные терминологические предпочтения, которые выяснились, например, в период, когда NAL использовала для индексирования своей базы данных тезаурус CABI. Оказалось, что и между ними были различия и NAL вводила в тезаурус CABI свои национальные термины с соответствующей пометкой. БД «AGRIS» создается усилиями более чем 150 стран, которые поставляют в нее информацию о национальных документах своих стран, поэтому ее тезаурус «AGROVOC» многоязычный, существуют версии на 29 языках, что для стран-участников решает проблему совместимости их баз данных с БД «AGRIS». В 2010 г. ЦНСХБ разработала русскоязычную версию этого тезауруса объемом более 32,9 тыс. терминов, эквивалентных терминам тезауруса «AGROVOC».
Цель работы – пополнить, обобщить и сравнить сведения о тезаурусах для более эффективной работы с ТЦ и русскоязычной версией тезауруса «AGROVOC».
В работе использовались теоретические методы исследования: метод анализа и селекции информационных источников и метод обобщения и систематизации информационных данных.
Содержание и результаты. Тезаурус БД «CABABSTRACTS»(ТСА) служит для формирования запроса и поиска в БД, а также формирования самой БД. По ТСА формируются поисковые предписания, индексируются документы для БД и изданий РЖ (реферативных журналов). Новые термины появляются в процессе индексирования документов и существуют некоторое время на правах ключевых слов. В ТСА каждый дескриптор имеет вышестоящие и нижестоящие понятия. Вышестоящее понятие приписывается автоматически к выбранному дескриптору. Используется принцип инверсии в сложных дескрипторах.
Словарная статья имеет: BT - вышестоящий термин, NT - нижестоящий термин, rt - ассоциации, HN - исторические заметки, AF - американская форма, BF - английская форма.
В CABI существует группа контроля качества индексирования. Проверки осуществляются, как только документ поступил в БД. Контроль осуществляется на разных этапах технологического процесса создания поискового образа документа. В БД существует формально-логический контроль написания терминов тезауруса.
На данном этапе наибольший интерес как инструмент поиска в базе данных для нас представляет тезаурус «AGROVOC» (ТА). Он используется для классификации, индексирования, описания содержания и маркировки (включая текст-майнинг) документов, а также для поиска библиографических данных в электронных библиотеках и хранилищах данных по широкому тематическому диапазону: сельское хозяйство, лесное хозяйство, аквакультура и рыбное хозяйство, водное хозяйство, вопросы механизации и строительства, природные ресурсы, загрязнение окружающей среды, питание и здоровье человека, образование и др. На сегодняшний день ТА доступен на 29 языках в виде концептуальной схемы (RDF/SKOS-XL), где концепты, их этикетки (лейблы/метки/пометки) и связи/отношения являются основными структурными элементами. (3). RDF (Resource Description Framework) – модель представления данных в виде, пригодном для машинной обработки. SKOS (Simple Knowledge Organisation System) – модель организации знаний для семантической паутины, призванная обеспечить взаимодействие различных информационных систем за счет стандартизации тезаурусов.
Концепты – это всё то, что обозначает понятия нашей предметной области (заменяет реальные предметы), набор необходимых терминов. Из-за многоязычности ТА концепты идентифицированы универсальными цифровыми идентификаторами ресурсов (URI), например: http://aims/fao/org/aos/agrovoc/c_8163; «молочная телятина» - это этикетка для данного URI (или URL) на русском языке.
Термины (этикетки) - это реальные лексические единицы (слова или словосочетания) со строгой и точной дефиницией, четкими семантическими границами для выражения концептов. Они выражают один и тот же концепт на разных языках (выражены через расширение SKOL-XL). Используются предпочтительные этикетки (дескрипторы – в обычном тезаурусе), альтернативные этикетки (для выражения синонимов или устранения неоднозначности – UF – use for). Для выражения иерархических связей используются предикаты (утверждения), соответствующие классическим связям в тезаурусе: вышестоящие/нижестоящие – broader/narrower (BT/NT). Неиерархические отношения выражают понятия «родства» между концептами через skos:related (в классическом тезаурусе – ассоциация RT) и специфический словарь связей «Agrontology». Пример термина из ТА:
TERM: (c_8163) RU: молочная телятина
Ψ
LANGUAGE 1. AR: ل حمال عجلالرض یع
-
2. CS: telecímaso
-
3. DE: KALBFLEISCH
-
4. EN: Veal
-
5. ES: Carnedeternera
-
6. FA: هگ و ش ت گو سال
-
7. FR: Viandedeveau
-
8. HI: ( )
-
9. HU: borjúhús
-
10. IT: Carnedivitello
-
11. JA: 子牛肉
-
12. KO: 송아지고기
-
13. LO: ນ
-
14. PL: Cielęcina
-
15. PT: Carnedevitela
-
16. RU: молочная телятина
-
17. SK: teľaciemaso
-
18. TH: ว
-
19. ZH: 犊牛肉
HIERARCHY
(c_6211) продукция
o (c_438) продукция животноводства
-
■ (c 4669) мясо
-
■ (c 8163) молочная телятина
BT
1. (c_4669) мясо
RT
-
1. (c_1219) телята
-
2. (c_861) говядина
UF 1. (c_32400) мясо телят
-
Около 80% концептов ТА – растения и животные. Они могут быть найдены под главным концептом «Организмы».
Каждый концепт ТА может быть подкреплён следующими типами информации:
-
• терминологическая информация: все термины/этикетки на языках, представляющих концепт;
-
• структурная информация: отношения/связи между концептами и терминами;
-
• семантическая информация: определения и/или графические изображения концепта;
-
• редакционная информация: редакционные примечания и ограничительные пометки.
Концептуальная схема ТА обеспечивает структуру организационных единиц для каждого домена, связанного с сельским хозяйством.
Ранее сотрудниками отдела АСОД ЦНСХБ были проведены исследования, которые выявили, что:
-
• англоязычные тезаурусы 2 международных БД по сельскому хозяйству имеют большое сходство по тематическому охвату, лексическому составу, построению и элементам словарных блоков, отношениями между терминами, но имеющиеся расхождения в этих областях не позволяют считать их совместимыми в существующем виде;
-
• ни один из англоязычных тезаурусов не совместим полностью с отечественным тезаурусом;
-
• англоязычные тезаурусы представляют большую ценность в практической работе с терминами, подготавливаемыми для ввода в ТЦ, в совершенствовании структуры его словарных блоков и словарных «деревьев»;
-
• невозможна их адаптация к отечественной терминологии и научным традициям (1).
В процессе отбора лексики для ТЦ происходит сближение терминологического состава ТЦ, ТСА и ТА, так как одним из оснований для включения термина в состав ТЦ является наличие его английского эквивалента в ТСА и ТА. Примеры терминов из ТЦ:
КЛЕТКИ
Примечание: растений и животных
Иноязычный эквивалент: CELLS
Эквивалентный термин в другом тезаурусе: Cells
ТЕЛЯТИНА
Иноязычный эквивалент: VEAL
Эквивалентный термин в другом тезаурусе: Babybeef
Входит в микротезаурус: Ветеринария; Животноводство; Пищевая промышленность
B1 МЯСО
При разработке словарных статей ТЦ используются лексические примечания, как в зарубежных тезаурусах, вводится предпочтительная связь “use and” (используй в комбинации =+), а также инверсная форма в ТА многословных терминов. Например:
РЕМОНТНЫЕ ТЕЛКИ
Иноязычный эквивалент: replacementheifers
Входит в микротезаурус: Ветеринария; Животноводство
=+ РЕМОНТНЫЙ МОЛОДНЯК
=+ ТЕЛКИ
Выводы. С целью облегчения доступа пользователя в зарубежные БД по сельскому хозяйству решаются вопросы сопряжения терминологии с помощью ТЦ. Использование некоторых элементов ТСА и ТА позволяет сделать отечественный тезаурус более совершенным, соответствующим международным стандартам, способствуют его совместимости с зарубежными тезаурусами.
Список литературы Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству
- Пирумова Л.Н. К вопросу о совместимости средств лингвистического обеспечения баз данных по сельскому хозяйству // Библиотеки в меняющемся мире: новые технологии и новые формы сотрудничества: междунар. науч. конф. Судак, 3-11 июня 2000 г.: материалы конф. - Судак, 2000. - С. 397-401.
- Пирумова Л.Н. Лингвистическое обеспечение по вопросам АПК: проблемы разработки и совместимости // Матер.1V научно-практич. Семинара «Электрон. ресурсы биб-к», 30-31 окт.2008, С.-П., 2008. - С. 126-135.
- АГРОВОК: Многоязычный тезаурус сельскохозяйственной терминологии / http://aim.fao.org/ru/about