Современные методы и подходы автоматического реферирования
Автор: Абукова Г.З., Алиев З.Г.
Журнал: Теория и практика современной науки @modern-j
Рубрика: Основной раздел
Статья в выпуске: 1 (67), 2021 года.
Бесплатный доступ
В данной статье дается обзор и классификация основных методов автоматического реферирования. Анализируются преимущества и недостатки каждого из подходов. Среди современных методов реферирования выделяются методы по типу получаемого реферата (экстракция, абстракция); по уровню анализа исходного текста: поверхностный уровень, уровень сущностей текста, уровень дискурсной структуры текста и т.д. Дается характеристика каждому методу.
Автоматическое реферирование, аннотирование, автоматическое извлечение, способы и методы автоматического реферирования
Короткий адрес: https://sciup.org/140275730
IDR: 140275730
Текст научной статьи Современные методы и подходы автоматического реферирования
На сегодняшний день из-за информационной перегрузке и нехватки времени, автоматическое реферирование и аннотирование пользуется популярностью. С помощью различных методов мы можем за короткое время усвоить огромный объем информации.
В зависимости от способа методы могут различаться. Так, по способу построения текста методы автоматического реферирования и аннотирования делятся на две группы: извлекающие (методы на основе машинного обучения и методы на основе теории графов), где из текста выделяются наиболее важные исходные фрагменты, и генерирующие, способные создавать новый текст, не представленный явно в тексте исходного документа.
Основными типами методов являются статистические и гибридные (статистические методы обработки документов дополняются одной или несколькими лингвистическими процедурами и лингвистическими базами знаний различной глубины). Особенностями статистического подхода являются универсальность алгоритмов извлечения ключевых слов и отсутствие необходимости в трудоемких процедурах построения лингвистических баз знаний. Но качество результата использования такого метода в зачастую неудовлетворительный. Данный подход применим к языкам с бедной морфологией.
К числу гибридных методов извлечения ключевых слов можно отнести методы на основе машинного обучения, где задача извлечения ключевых слов рассматривается как задача классификации. Среди методов на основе машинного обучения можно отметить: байесовские методы; метод опорных векторов; деревья решений; использование нейронных сетей.
Среди современных методов реферирования выделяют:
-
1) по типу получаемого реферата:
— экстракцию (извлечение информационных блоков, Sentence Extraction, квазиреферирование). Все существующие системы автоматического реферирования промышленного масштаба реализованы в рамках данного подхода. Недостаток: выбранные информационные блоки никак не связаны между собой.
— абстракцию (извлечение содержания, Content Extraction) - генерация реферата с порождением нового текста, содержательно обобщающего первичный документ или документы. Данный подход характеризуется тремя неотъемлемыми этапами: анализ исходного текста с генерацией внутреннего представления, семантическое сжатие внутреннего представления и синтез нового текста (реферата). В рамках данного подхода можно выделить два основных направления: абстракция на основе лингвистического сжатия и с опорой на знания.
-
2) по уровню анализа исходного текста:
— поверхностный уровень (Surface-level approach). Подходы данного уровня характеризуются поверхностным анализом текста. Предложения рассматриваются как линейные последовательности слов (в некоторых случаях, словосочетаний), которые несвязно собираются в текст.
— уровень сущностей текста (Entity-level approach). Здесь детально рассматривают модель текста, его элементы - «сущности», их взаимосвязи, совместную встречаемость, кореферентность, анафорические отношения и т. д., опираясь на модель структурной связности текста (когезию).
— уровень дискурсной структуры текста (Discourse-level approach) предполагает качественно новый уровень анализа исходного текста, его глобальной структуры, его связи с коммуникативными целями. В основе данного подхода лежит анализ содержательной модели связности текста (когеренции). Когеренция представляет собой семантико-прагматические аспекты смысловой и деятельностной (интерактивной) связности дискурса как локальной, так и глобальной.
-
3) по критерию использования опоры на знания:
— методы без опоры на знания (Knowledge-poor approach) не предполагают создания специальных баз знаний какой-либо предметной области с целью понимания смысла текста на естественном языке. К данному направлению относится большинство существующих на текущий момент методов извлечения предложений и ряд методов абстракции на основе лингвистического сжатия.
— методы c опорой на знания (Knowledge-rich approach). Предполагают использование специальных баз знаний, содержащих наборы правил и эвристик какой-либо специфичной предметной области для формирования реферата.
-
4) по технологии построения реферата:
— подходы «сверху-вниз» (Top-down approaches) на основе извлечения информации предполагают трансформацию исходного текста в некоторое более содержательное внутреннее представление, а затем манипуляцию с этим представлением и формирование итогового реферата.
— подходы «снизу-вверх» (Top-down approaches) используют методику информационного поиска и пытаются выделить релевантные фрагменты из исходного текста и сформировать из них итоговый реферат.
-
5) по ориентации на предметную область:
— подходы без ориентации на предметную область (Domain-independent approaches).
— подходы с ориентацией на конкретную предметную область ( Domain-dependent approaches).
На данном этапе развития автоматического реферирования и аннотирования классификация современных методов выглядит так, довольно условная. Каждый метод сочетает в себе комбинацию нескольких подходов разных направлений с некоторыми нововведениями. Применимы они к различного типа текстам различных языков.
Список литературы Современные методы и подходы автоматического реферирования
- Шереметьева С.О., Осминин П.Г. Методы и модели автоматического извлечения ключевых слов // Вестник ЮУрГУ. Серия: Лингвистика. 2015. №1. [Электронный ресурс] - URL: https://cyberleninka.ru/article/n/metody-i-modeli-avtomaticheskogo-izvlecheniya-klyuchevyh-slov.
- Тарасов С.Д. Современные методы автоматического реферирования // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика, телекоммуникации и управление. 2010. №6 (113). [Электронный ресурс] - URL: https://cyberleninka.ru/article/n/sovremennye-metody-avtomaticheskogo-referirovaniya.