Об одном подходе к извлечению именованных сущностей из неструктурированных текстов
Автор: А. А. Ворошилова, С. Ю. Пискорская
Журнал: Informatics. Economics. Management - Информатика. Экономика. Управление.
Рубрика: Образование
Статья в выпуске: 2(3), 2023 года.
Бесплатный доступ
В статье рассматривается один их возможных подходов к извлечению именованных сущностей из неструктурированных текстов. Отмечается сложность и трудоемкость наиболее распространенных методов решения данной задачи, базирующихся на использовании создаваемых вручную конечных автоматов. Возникает ряд сложностей при реализации данного подхода при обработке мультилингвистических текстов, так как для каждого нового языка и для каждого нового класса сущностей требуется вмешательство человека для создания вручную нового набора шаблонов для работы с новыми языками и новыми классами. Предлагаемый подход предполагает использование принципов машинного обучения. Дана постановка задачи и описана используемая модель марковской цепи при распознавании именованных сущностей. На основе данной модели для выделения именованных объектов ставится задача нахождения наиболее вероятной последовательности состояний, генерирующих последовательность лексем. В статье описан лексический материал, включающий состав признаков и их описания, представлена методика декодирования и оценка параметров модели. В данной работе для решения задачи используется алгоритм Витерби, который предназначен для нахождения последовательности состояний, для которых вероятность порождения наблюдаемой цепочки символов максимальна. В качестве экспериментальных результатов представлены характеристики точности распознавания типов лексем при различных размерах обучающей выборки и диаграмма количества ошибок по классам лексем.
Обработка информации, неструктурированный текст, именованная сущность, лексема, скрытая марковская цепь
Короткий адрес: https://sciup.org/14127464
IDR: 14127464 | DOI: 10.47813/2782-5280-2023-2-2-0301-0313