Актуализация информационно-поискового тезауруса по сельскому хозяйству и продовольствию: проблемы и решения
Автор: Пирумова Л.Н., Бисьева А.В., Ильина Л.В.
Журнал: Культура: теория и практика @theoryofculture
Статья в выпуске: 3 (12), 2016 года.
Бесплатный доступ
Рассматриваются проблемы, связанные с актуализацией информационно-поискового тезауруса, в т.ч. отбор новых понятий, обработка новой лексики, формирование словарных статей. Особое внимание уделено работе по редактированию лексики, уже вошедшей в информационно-поисковый тезаурус. Раскрывается роль микротезаурусов в этой работе.
Информационно-поисковые системы, лингвистические средства, информационно-поисковые языки, тезаурусы, апк, цнсхб
Короткий адрес: https://sciup.org/144159840
IDR: 144159840
Текст научной статьи Актуализация информационно-поискового тезауруса по сельскому хозяйству и продовольствию: проблемы и решения
Л.Н.ПИРУМОВА, А.В.БИСЬЕВА, Л.В.ИЛЬИНА АКТУАЛИЗАЦИЯ
ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ И ПРОДОВОЛЬСТВИЮ: ПРОБЛЕМЫ И РЕШЕНИЯ
Тезаурус часто называют терминологической сокровищницей, поскольку он собирает, накапливает терминологию по определенной области знания, но прежде всего – это контролируемый словарь лексических единиц, основанный на лексике естественного языка с зафиксированными в нем семантическими и лексическими связями этих единиц.
В автоматизированной системе Федерального государственного бюджетного научного учреждения «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) Информационнопоисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ) является основным средством тематического поиска и средством формально-логического контроля выбранных индексатором лексических единиц в процессе семантической обработки документов.
ИПТ был создан с целью повышения качества поиска информации в автоматизированной информационно-поисковой системе (ИПС) и выполняет следующие функции: индексирование входного документального потока, контролирование и нормализация лексики АПК, единообразие и формализация представления информации в ИПС, отражение парадигматических отношений, существующих между терминами отрасли знания. ИПТ представляет собой алфавитный перечень терминов, относящихся к области АПК и смежных с ним отраслей и является, таким образом, терминологической базой нормализованной научной лексики по проблемам АПК. Статус терминологической базы АПК требует максимального насыщения ИПТ новой лексикой и поддержание лексики уже вошедшей в ИПТ, в актуальном состоянии.
Очевидно, что выявить новые направления в науке можно только путем изучения научных публикаций, поэтому эта проблема была решена в ЦНСХБ тем, что этим занимаются индексаторы. Выявление новых направлений в науке, новых научных понятий происходит в процессе аналитикосинтетической обработки документов: научных монографий, периодических и продолжающихся изданий. В ходе аналитической обработки отбираются не только те термины, которые относятся непосредственно к сельскому хозяйству и пищевой промышленности, а также из смежных отраслей знания. Перед индексатором стоит сложная задача отобрать из текста документа основные понятия, выделить приоритетные темы, которые интересны пользователю: ученым и специалистам-практикам. Очень важно не пропустить зарождающиеся направления в науке и производстве, которые еще не популярны или пока не используются в Росси. Поэтому в ЦНСХБ индексаторы - это специалисты в области АПК, и именно в той конкретной отрасли (растениевод, животновод, пищевик), по которой они обрабатывают научную литературу и лексику для ИПТ. Но, кроме того, индексатор также должен понимать принципы и логику информационного поиска, чтобы определить, выделить те понятия, которые будут важны при информационном поиске. Так решается проблема выявления новых понятий для ИПТ. Индексатор, выявив новое понятие, начитает работать с ним. На первом этапе устанавливается мониторинг, т.е. постоянное наблюдение, отслеживание как часто встречается это понятие в научных публикациях, и в какой формулировке. Если частотность встречаемости достаточно высока, начинается процесс обработки термина: выявлении всех возможных синонимов, создание словарной статьи.
На этапе обработки определяется, какие понятия будут включены в ИПТ и в каком статусе. Одни термины будут включены в лексический словарь и будут использоваться постоянно, им будет определено место в ИПТ, они получат соответствующее лингвистическое обрамление, а другие будут использоваться в качестве ключевых слов. При обработке лексических единиц в ИПТ используются уже существующие словари, списки предметных рубрик, алфавитно-предметные указатели комплексносистемного каталога ЦНСХБ, алфавитно-предметные указатели классификаций, терминологические и толковые словари, справочники, нормативные документы. От того, насколько досконально проанализированы словари и справочники по теме понятия, а также от того насколько индексатор разбирается в данном вопросе, владеет специальной научной терминологией в конкретной области, зависит состав и полнота лексического обрамления словарной статьи, ее синонимия. Независимо от того, будет термин включен в лексический словарь или будет использован только один раз, он должен быть оформлен в виде единообразной записи, т.е. нормализован посредством грамматики тезауруса и устранения синонимии и полисемии. Для этого установлены унифицированные формы записи для ИПТ: род, падеж, число, разрешение использования словосочетаний и целостных понятий, определения порядка записей в них (наличие или отсутствие инверсии). Используются различные уточняющие или ограничительные пометки. Затем лексические единицы систематизируются и группируются, между ними устанавливаются смысловые связи, образуются классы, разделы (близких по значению слов). На этом этапе устанавливаются парадигматические отношения между отобранными терминами -лексическими единицами, строятся классы условной эквивалентности. Классы условной эквивалентности представляют собой совокупность лексических единиц, которые считаются условно синонимичными в аграрной науке и используются в ИПТ в качестве равнозначных. Между лексическими единицами, входящими в один класс условной эквивалентности, устанавливаются отношения равнозначности (тождества, выражаемые синонимами), пересечения (частичного совпадения объемов понятий, отношения связывающего слова, между которыми существует ассоциативная связь), подчинения (отношения типа “род-вид”, “целое-часть”).
Построение классификационных схем понятия состоит из выделения основных признаков понятия, которые становятся основными делениями и построения частных схем, которые отражают взаимосвязь понятий и их признаки. Терминологическая база предполагает актуализацию и современные формулировки терминов, максимально полное отражение научных понятий, обозримость их в рамках определенной отрасли знания, что требует постоянной работы с ИПТ и лексическими единицами, уже вошедшими в него. Ежегодно проводится работа по формированию иерархических деревьев для разных областей ИПТ, в ходе которой проводится: обогащение ИПТ новой лексикой; развитие иерархических отношений между терминами (построение иерархических деревьев) с учетом внеконтекстных логических связей между отображаемыми ими понятиями; ввод новых терминов-синонимов, установление отношений синонимии для существующих лексических единиц (ЛЕ) тезауруса, устранение неоднозначности терминов; установление ассоциативных отношений между терминами в связи с вводом новых ЛЕ, редактирование иерархических связей, замена их ассоциативными отношениями в целях рационального расширения поискового образа документа; ввод комментариев к сложным или неоднозначным понятиям; удаление устаревших и ошибочных терминов, их замена, исправление ошибок в написании терминов, а также приписывание так называемых связанных данных, в частности англоязычных эквивалентов.
Для принятия оптимального решения при разработке новой версии ИПТ также привлекаются авторитетные литературные источники: энциклопедии, справочники, отечественные тезаурусы по соответствующей тематике, в частности, ИПТ по экономике и демографии ИНИОН, многоязычный тезаурус EUROVOC, англоязычные международные тезаурусы CABI, AGROVOC , документы Интернет. Проводится анализ документов БД «АГРОС» на предмет практики и частотности использования терминов, а также консультации со специалистами.