@ontology-of-designing Онтология проектирования

Инжиниринг онтологий. Рубрика в журнале - Онтология проектирования

Публикации в рубрике (77): Инжиниринг онтологий

Knowledge net: модель и система накопления, представления и использования знаний и данных

Тушканова О.Н., Самойлов В.В.

Статья научная

Описана разрабатываемая авторами модель Knowledge Net, предназначенная для формализации накопления, представления и использования знаний и данных единого информационного пространства интеллектуального предприятия, в том числе в рамках концепции Индустрия 4.0. В основу модели Knowledge Net положена графовая модель данных. Модель Knowledge Net является частью прикладных разработок цифровой платформы предприятия. Разработка программной системы, поддерживающей модель Knowledge Net, выполняется в концепции открытого программного кода. В работе приведён пример использования программного прототипа для описания объектов производственного предприятия. Ключевой особенностью Knowledge Net, отличающей разработку от известных аналогов, является комбинация таких свойств, как поддержка многоаспектности описания субъектов и объектов предприятия, возможность расширения сети понятий и сущностей вместе с развитием предприятия, динамическое формирование структуры аспектов и их свойств, множественность возможных типизаций сущностей, представленных моделью Knowledge Net, а также поддержка версионности модели знаний и данных.

Бесплатно

Автоматизация разработки онтологий научных предметных областей на основе паттернов онтологического проектирования

Загорулько Юрий Алексеевич, Сидорова Елена Анатольевна, Загорулько Галина Борисовна, Ахмадеева Ирина Равильевна, Серый Алексей Сергеевич

Статья научная

В настоящее время онтологии признаны наиболее эффективным средством формализации и систематизации знаний и данных в научных предметных областях (НПрО). Однако разработка онтологии является сложным и трудоёмким процессом. Практика показала, что при разработке онтологий НПрО, особенно эффективно применение паттернов онтологического проектирования. Это связано с тем, что в онтологии НПрО, как правило, содержится большое количество типовых фрагментов, которые хорошо описываются паттернами онтологического проектирования. Благодаря тому, что использование паттернов онтологического проектирования значительно облегчает разработку онтологии НПрО, к ней можно привлечь экспертов в моделируемой НПрО, не владеющих навыками онтологического моделирования. Для получения онтологии НПрО, необходимо обработать огромное количество публикаций, релевантных моделируемой НПрО. Облегчить и ускорить процесс пополнения онтологии информацией из таких источников можно за счёт использования лексико-синтаксических паттернов онтологического проектирования. В статье представлен подход к автоматизированному построению онтологий НПрО на основе системы разнородных паттернов ОП. Система включает паттерны ОП, предназначенные для разработчиков онтологий, и автоматически построенные на их основе лексико-синтаксические паттерны, с помощью которых может выполняться автоматическое пополнение онтологии информацией, извлекаемой из текстов на естественном языке.

Бесплатно

Автоматизация синтеза составных онтологических паттернов содержания

Ломов П.А.

Статья научная

Применение онтологических паттернов проектирования становится распространенным подходом в онтологическом инжиниринге. Онтологические паттерны являются формализацией проверенных решений, которые могут быть повторно использованы при разработке онтологий. В данной статье основное внимание сосредоточено на одной разновидности онтологических паттернов - онтологических паттернах содержания, которые представляют собой небольшие фрагменты онтологий, формализующие обобщённые ситуации предметной области (например, участие в событии, исполнении роли, наличие частей у объекта и др.). Паттерны содержания используются в качестве строительных блоков при разработке онтологии. В таком случае они, как правило, могут быть расширены, специализированы, объединены разработчиком для получения составного паттерна содержания, который предоставит более сложный онтологический фрагмент, позволяющий обеспечить представление знаний о некотором объекте предметной области с необходимой степенью детализации. Однако выполнения таких композиций паттернов содержания часто не сводится к простому объединению соответствующих им онтологических фрагментов, а требуют их предварительной модификации и последующего связывания их элементов особым образом. Это может потребовать от разработчика наличия знания семантики того или иного паттерна, используемого в композиции, а также навыков онтологического инжиниринга и тем самым усложнить применение паттернов. В данной работе рассматривается проблема автоматизации подбора подходящих паттернов содержания на основе преопределённых отношений между ними и последующего синтеза на их основе составного паттерна в соответствии с требования задачи разработчика онтологии. Рассматривается пример синтеза составного онтологического паттерна содержания с использованием предложенной процедуры.

Бесплатно

Автоматизированный сентимент-анализ коротких текстов

Ивутин А.Н., Савенков П.А., Волошко А.Г.

Статья научная

Цифровые технологии меняют традиционные профили поведения пользователей, перенося общение на мобильные устройства, которые становятся помощником и инструментом для разнообразной деятельности. В связи с этим возникает потребность в оценке эмоциональной окраски передаваемых сообщений. Мобильное устройство накладывает ограничения на манеру и стиль общения, смещая вектор к коротким сообщениям и сокращая величину контекста. Для сентимент-анализа коротких наборов текстов и выделения из них эмоциональных признаков предложено применение бинарной классификации, как способа предобработки массива данных, в совокупности с плавающим временным контекстным окном, как способом уточнения обрабатываемой информации. Рекуррентные сети использованы в комбинации с бинарным классификатором с целью повышения точности результата анализа и учѐта используемых вычислительных ресурсов. Показано, что результаты работы могут быть улучшены за счѐт дополнения традиционно применяемых для таких задач наборов данных информацией, собранной непосредственно с рабочих мобильных устройств пользователей в их ежедневной деятельности. Целью работы является повышение качества анализа эмоционального окраса коротких наборов пользовательских текстов посредством разработки и апробации метода автоматизированного формирования доверенного набора данных. Существующие наборы данных содержат значительный объѐм некорректно размеченной информации, что оказывает влияние на итоговое качество анализа. Предложенные средства позволили достичь доли правильных ответов 96% на обучающем и 92% на проверочном наборах данных.

Бесплатно

Автоматическое оценивание эксплойтов на основе методов глубокого обучения

Бусько Н.А., Федорченко Е.В., Котенко И.В.

Статья научная

Оценивание и приоритизация программ, использующих уязвимости в программном обеспечении и применяемых для проведения кибератак на вычислительную систему (эксплойтов), является важным этапом эффективного реагирования на кибератаки. В данной работе предлагается методика автоматического оценивания эксплойтов, в которой на этапе проектирования выполняется обучение модели для классификации эксплойтов методами глубокого обучения, а на этапе эксплуатации обученная модель используется для вывода оценки критичности эксплойта. В основу методики положена гипотеза о том, что сложность применения эксплойта, последствия его применения и его оценка зависят от эксплуатируемой уязвимости и исходного кода эксплойта. Предложенная методика отличается от существующих применением для классификации эксплойтов модели CodeBERT на основе размеченного набора исходных кодов эксплойтов, а также разметкой исходных кодов эксплойтов в соответствии с оценками связанных уязвимостей по системе оценки уязвимостей CVSS ( Common Vulnerability Scoring System ) версии 2.0. Для экспериментальной оценки разработанной методики определены источники данных (база эксплойтов Exploits-DB и база уязвимостей NVD ) и исходные данные для экспериментов, выполнен их статистический анализ, проведена экспериментальная оценка точности классификации эксплойтов. Полученные результаты могут использоваться при проектировании систем автоматического оценивания эксплойтов в рамках комплекса мер по мониторингу и повышению защищённости информационных систем.

Бесплатно

Активное обучение для извлечения знаний из описаний образовательных курсов в условиях малых объёмов данных

Кленин Ю.Д.

Статья научная

В условиях постоянного роста объёмов учебных данных их «ручная» обработка не представляется возможной, уступая место различным моделям и методам машинного обучения. В то же время именно наличие обучающих выборок достаточного объёма позволяет современным алгоритмам машинного обучения хорошо справляться с базовыми прикладными задачами. Однако многие современные задачи сложны и узкоспециализированы. Это ограничивает количество данных, доступных для качественного обучения, снижая эффективность полностью автоматических систем. В работе рассматривается подход к задаче автоматизированного извлечения фактов из коллекций неразмеченных текстовых документов, в условиях малых объёмов учебных данных. Освещаются вопросы интеграции экспертных правил для конкретных предметных областей с обобщёнными, предметно-независимыми моделями машинного обучения, предварительно обученными на больших объёмах данных. Предложенный подход, опираясь на методику активного обучения, позволяет сократить трудозатраты эксперта, необходимые для эффективной генерации шаблонов извлекаемых фактов, сохраняя при этом высокое качество результатов работы системы. Применение предлагаемого метода поиска фактов по шаблону показано на примере задачи поиска информации о целевой аудитории в неструктурированном описании онлайн курсов.

Бесплатно

Алгоритм психолингвистического анализа текстовых данных социальных сетей с применением модели "большая пятёрка"

Ярушкина Н.Г., Мошкин В.С., Андреев И.А.

Статья научная

Представлен подход к определению психологических характеристик пользователя социальных сетей посредством анализа текстовых сообщений в социальных сетях. Предложенный в работе подход заключается в классификации авторских текстов пользователя с использованием машинного обучения. В качестве обучающих данных используются результаты анализа опросов пользователей в соответствии с моделью «Большая пятёрка», а также набор авторских текстовых данных со страниц социальных сетей. Опросник содержит парные высказывания, опрашиваемый определяет степень собственного согласия с тем или иным высказыванием по шкале от 0 до 4. К текстовым ресурсам, используемым в качестве входных данных для классификатора, были применены методы обработки текстов на естественном языке ( NLP ), а также задействована лингвистическая онтология RuWordNet , с целью нивелирования ряда особенностей текстов социальных сетей, например, наличие грамматических ошибок и эмотиконов, затрудняющих процесс семантического анализа. В качестве классификаторов использовались две модели: метод опорных векторов и метод случайного леса. Для оценки эффективности использовалась метрика площади под кривой ошибок ( AUC ROC ). В экспериментах использовались открытые текстовые данные более 1000 пользователей социальной сети.

Бесплатно

Алгоритмизация формирования и прагматической трансформации ограничений существования свойств предметной области

Семенова В.А., Смирнов С.В.

Статья научная

Областью исследований является интеллектуальный анализ данных, конкретно - развиваемое авторами направление «онтологический анализ данных», что следует понимать как анализ эмпирических данных о неизученной, неструктурированной предметной области с целью построения ее формальной онтологии. Предметом исследования статьи является формирование набора свойств, которые, как предполагается, характеризуют объекты изучаемой предметной области (и, следовательно, подлежат измерению в самом широком смысле этого слова), но с ограничениями на сочетания таких характеристик у объектов - «ограничениями существования» свойств. Задачи исследования состоят в разработке алгоритмов пошагового формирования набора измеряемых свойств с ограничениями существования, алгоритмов модификации такого набора (замещения и удаления свойств), алгоритма преобразования «естественного» описания этого набора как множества с заданными на нём отношениями в форму, удобную для последующего конструктивного, прагматического использования информации об ограничениях существования в онтологическом анализе данных. В работе используются методы теории множеств и бинарных отношений, модели и методы анализа формальных понятий, а также существующая методология применения ограничений существования для построения формальных онтологий. Отличие и новизна предложенных алгоритмов формирования набора свойств с ограничениями существования заключается в «естественном» и эффективном с точки зрения машинной реализации представлении таких наборов в форме графов и матриц инцидентности. Новизна алгоритмов модификации набора свойств с ограничениями существования - в выполненной впервые алгоритмизации уникальных методов расширения набора измеряемых свойств, непосредственно опирающихся на фундаментальные законы классической логики. Сказанное верно и для алгоритма трансформации набора измеряемых свойств в набор групп свойств, однородных по виду экзистенционального сопряжения свойств-членов. Значение полученных результатов состоит в алгоритмическом обеспечении ряда этапов онтологического анализа данных.

Бесплатно

Анализ данных о поведении пользователей в системах электронного обучения

Романов А.А., Волчек Д.Г.

Статья научная

Рассматриваются современные системы электронного обучения, имеющие возможность записывать действия пользователей, такие как передвижения, использование интерактивных материалов, регистрация на курсы, их завершение и др. Анализ действий пользователей в системах управления процессом обучения предоставляет возможности для персонализации образовательных траекторий. На основе изучения поведения пользователей становится возможным формирование рекомендаций для разработчиков курсов по улучшению контента и структуры, а также рекомендаций по прохождению курса обучающимся. Исследуются данные, содержащиеся в логах активности, для получения информации, поиска зависимостей путём фильтрации релевантных логов, структурирования информации из них и предоставления данных в удобном для анализа и получения выводов виде. Рассматриваются данные основных типов событий, генерируемых в результате записи действий пользователя в системе управления обучением, и сценарии использования результатов анализа этих данных.

Бесплатно

Анализ неполных данных в задачах построения формальных онтологий

Самойлов Д.Е., Семенова Валентина Андреевна, Смирнов С.В.

Статья научная

В статье рассматривается проблема автоматизации формирования онтологических спецификаций предметных областей на основе измерений - стержневая проблема онтологического анализа данных. Представлены модели и методы, направленные на выявление понятийной структуры и, в конечном счете, формальной онтологии исследуемой предметной области. Фундаментальные реалии накопления эмпирической информации: многократные независимые измерения каждого свойства объекта обучающей выборки; конгруэнтность части процедур измерения; дифференциация доверия к различным источникам данных - отражены в модели обобщенной таблицы «объекты-свойства». Неполнота (неточность, противоречивость, неопределенность) этой информации влечет необходимость использования для её первичной обработки моделей многозначной логики. Результат такой обработки - нестрогий формальный контекст - должен быть аппроксимирован однозначным контекстом, из которого возможен вывод формальных понятий в рамках прикладной ветви теории решёток, известной как «анализ формальных понятий». Исследуется генезис «ограничений существования свойств», которые влияют на корректность аппроксимации нестрогого формального контекста. Предлагаются модели и метод учета этой дополнительной информации. Формулируются прагматически обоснованные принципы преобразования решетки формальных понятий в формальную онтологию. Приводится модельный пример использования разработанных моделей и методов онтологического анализа данных.

Бесплатно

Вероятностные формальные понятия в некоторых задачах классификации

Витяев Е.Е., Мартынович В.В.

Статья научная

Рассматривается определение формальных понятий как неподвижных точек импликаций. На основе этого определения водится понятие вероятностных формальных понятий путем замены импликаций на специальные максимально специфические вероятностные правила, для которых ранее было доказано, что неподвижные точки для них логически непротиворечивы. Определяется алгоритм ProbClosure обнаружения вероятностных формальных понятий. Для разработки алгоритмов кластеризации и классификации контекст рассматривается как выборка из генеральной совокупности. Обобщая алгоритм ProbClosure, определяются алгоритмы кластеризации ConcClosure и StatClosure путем введения различных функционалов энергии, определяющих степень непротиворечивости правил в неподвижной точке. Алгоритмы классификации получаются путем применения алгоритмов кластеризации к новым данным. Проведено сравнение полученных алгоритмов классификации с решающими деревьями C4.5, ID3 и методом классификации, основанным на решётке формальных понятий. Сравнение проведено на данных репозитория UCI. Полученные результаты показали сравнительно большую точность разработанных алгоритмов по сравнению с указанными методами.

Бесплатно

Визуально-аналитическое мышление и интеллект-карты в онтологическом инжиниринге

Гаврилова Т.А., Страхович Э.В.

Статья научная

Статья посвящена вопросам практического применения принципов визуально-аналитического мышления в задачах структурирования знаний при разработке онтологий. Под визуально-аналитическим мышлением понимается применение методологий, использующих различные виды диаграмм для представления идей, концептов, отношений и процессов. Из известных практически используемых видов диаграмм выбраны интеллект-карты как наиболее распространенный, удобный и простой метод корректного формирования и проектирования онтологий сложных предметных областей. Интеллект-карты отражают иерархические связи между понятиями и позволяют достаточно глубоко отображать особенности и закономерности предметных областей с их спецификой отношений. Бьюзен сформулировал идею интеллект-карт в качестве компактного средства организации конспектов, которое впоследствии было доведено до программной реализации и получило широкое распространение в различных областях образования, научных исследований и бизнеса. В статье рассматриваются основные принципы формирования таких карт и анализируются типичные ошибки разработчиков. Впервые предлагается классификация ошибок с учётом синтаксических, семантических и прагматических аспектов. Приводится разбор наиболее частых ошибок, связанных с нарушением правил «хорошего обобщения» и «разумного минимализма». Статья обобщает десятилетний опыт обучения и тренинга навыков визуально-аналитического мышления на программах Executive MBA и на корпоративных тренингах и может быть интересна разработчикам интеллектуальных систем и систем управления знаниями.

Бесплатно

Доверие к данным при пополнении онтологий и графов знаний

Серый А.С.

Статья научная

Рассматривается задача оценки доверия к информации, извлекаемой из текстовых источников для пополнения онтологий или графов знаний. За единицу информации или факт, принимается минимальное знание об экземпляре предметной области, выражаемое единичным RDF -триплетом. Приведено описание вероятностной модели оценки доверия, основанной на марковских случайных процессах. При оценке модель строится на основании доступной информации об источниках с учётом ранее извлечённых данных. Предложен метод оценки доверия к информации с параллельным взвешиванием источников. Подобный подход востребован в ситуациях, когда качественные характеристики источников неизвестны или недоступны. В рамках тестирования модели были автоматически сгенерированы наборы численных данных различных объёмов, проведены эксперименты по взвешиванию источников и оценке доверия к извлекаемой из них информации. Результаты экспериментов показали, что в большинстве случаев веса источников, вычисляемые на основе предлагаемой модели, тем больше, чем меньше среднее отклонение предоставленной ими информации от истинной, доверие к фактам увеличивается с уменьшением расстояния до истинных данных. Выполнено сравнение с моделями агрегации данных. В большинстве случаев агрегация, выполненная на основе оценки доверия, демонстрировала наименьшее среднее отклонение от истинных данных среди рассмотренных моделей. Полученные результаты показывают, что предлагаемая модель эффективна в сравнении с другими аналогичными моделями и может применяться в задачах оценки доверия к фактам, представляемым вещественными числами.

Бесплатно

Извлечение информации из текстов на основе онтологии и больших языковых моделей

Сидорова Е.А., Иванов А.И., Овчинникова К.А.

Статья научная

Рассматривается извлечение информации из текстов на основе онтологии предметной области и нейросетевых методов анализа текста с привлечением больших языковых моделей. Обсуждается роль эксперта при разработке и сопровождении систем на примере задачи извлечения информации из аналитических статей и при построении онтологий по компьютерной лингвистике, описывающих основные понятия, интересующие пользователя/заказчика системы. Создание онтологии сопровождается созданием словаря - терминологического ядра онтологии с дальнейшей разработкой методов извлечения новых терминов данной предметной области. Данная задача рассматривается как задача извлечения именованных сущностей, для решения которой стандартом является обучение нейросетевой модели на представительном наборе данных. Этот подход сравнивается с подходом на основе больших языковых моделей, для реализации которого разработаны лексико-синтаксические шаблоны, шаблоны инструкций для проверки гипотез относительно новых терминов-словосочетаний, инструкции для верификации результатов. Разработанные инструкции для решения задачи извлечения отношений включают вопросы оценки компетенций на естественном языке, генерируемые автоматически для каждого отношения онтологии. Новизна предлагаемого подхода заключается в интеграции онтологических, лингвистических и нейросетевых подходов для извлечения информации из текстов. Показана возможность решать задачи анализа текста и извлечения информации путём выстраивания цепочки больших языковых моделей, инструкции для которых динамически формируются на основе результатов предыдущих этапов анализа. В эксперименте достигнуты следующие оценки F1-меры: для извлечения и классификации терминов F1=0.8, для извлечения отношений F1=0.87.

Бесплатно

Интеграция телекоммуникационных сетей в системе мониторинга с использованием доменных онтологий

Куликов И.А., Жукова Н.А.

Статья научная

Обсуждаются вопросы проектирования облачных систем мониторинга телекоммуникационных сетей, основанных на построении и применении моделей таких сетей в форме графов знаний. Предлагаемые системы мониторинга объединяют в себе функции систем, используемых различными операторами телекоммуникационных сетей. Рассматриваемый подход к проектированию предполагает использование ряда общих онтологий и онтологий доменного уровня, таких как доменная онтология телекоммуникационных услуг ( TSDO ) и онтология гибридной телекоммуникационной сети ( ToCo ). Для учёта специфики сетей и операторов в разрабатываемой системе мониторинга предусматривается расширение доменной онтологии. В статье рассматривается случай объединения в рамках одной системы мониторинга телекоммуникационных сетей, построенных на основе различных онтологий доменного уровня либо без использования онтологической модели, путём добавления новых онтологий. Для автоматизации процесса проектирования предложен алгоритм сопоставления классов доменных онтологий с компонентами моделей телекоммуникационных сетей. Показано применение предложенного подхода на примере задачи добавления нового сегмента сети в систему мониторинга оператора кабельного телевидения.

Бесплатно

Использование онтологий для контекстуализации запросов к большим языковым моделям

Ломов П.А.

Статья научная

Применение больших языковых моделей стало распространённым явлением в вопросно-ответных и диалоговых системах. Для этого модель должна быть предварительно обучена на подготовленных текстовых данных, что позволяет ей с высокой вероятностью генерировать корректные реплики в диалоге с пользователем. Однако качество ответов снижается, если вопросы начинают касаться предметов, процессов и явлений, которые в меньшей степени описаны в текстах, использованных для обучения модели. Для этого данные, являющиеся новыми для модели, передаются ей вместе с пользовательским запросом в виде контекста, который обычно формируется с использование векторной базы данных текстовых фрагментов. В статье предлагается использование в качестве источника контекстных данных вместо векторной базы данных онтологии предметной области. Онтологии снабжаются лексическим представлением формализованной в них терминологической системы для идентификации релевантного пользовательскому запросу онтологического фрагмента и трансформации его в естественно-языковой текст формируемого контекста. Это позволяет уменьшить объём текста ответа и повысить степень его семантического соответствия пользовательскому запросу. В статье рассматриваются минимальные требования к структуре лексического представления онтологии: наличие естественно-языковых наименований, их форм для понятий и отношений, а также их лексических значений. Применение предложенного подхода показано на примере получения ответа на вопрос по научным статьям с использованием большой языковой модели. Обсуждаются преимущества и недостатки предложенного подхода.

Бесплатно

Кластеризация с использованием методов удовлетворения табличных ограничений

Зуенко А.А., Зуенко О.Н.

Статья научная

Исследования посвящены развитию методов кластерного анализа, в частности методов кластеризации с частичным привлечением учителя, в которых при отнесении объектов к классам анализируются фоновые знания из предметной области. Традиционный подход к решению рассматриваемой задачи состоит в модификации существующих методов кластеризации, большинство из которых является методами локального поиска. В статье развивается подход к систематическому поиску оптимальных разбиений в рамках парадигмы программирования в ограничениях. Оригинальность представленных исследований состоит в том, что задачу кластеризации предложено решать как задачу удовлетворения ограничений, причём для моделирования ряда основных и дополнительных условий используются специализированные табличные ограничения - смарт -таблицы D -типа. Для организации процедур логического вывода на смарт -таблицах D -типа используются правила редукции табличных ограничений. Обсуждаются преимущества данного подхода. Показано, как анализ одного из оптимальных решений может помочь в выявлении объектов, лежащих на границе кластеров, и объектов, принадлежащих одному и тому же кластеру при любом оптимальном разбиении.

Бесплатно

Коммюнике онтологического саммита 2017:ИИ, машинное обучение, логический вывод и онтологии (перевод на русский)

Другой

Существует множество связей между искусственным интеллектом, обучением, логическим выводом и онтологиями. Онтологический саммит 2017 года был посвящён исследованию, выявлению и формулированию отношений между этими областями. Для популяризации онтологической науки в рамках сессий онтологического саммита 2017был выделен диалоговый инструментарий, что способствовало обсуждению и обмену знаниями между заинтересованными лицами. Результаты подтверждаются примерами из различных областей. Материал представлен в форме коммюнике, который дополнен ссылками на источники в Интернете.

Бесплатно

Комплексная верификация продукционных баз знаний с использованием VTF-логик

Аршинский Л.В., Ермаков А.А., Нитежук М.С.

Статья научная

Рассматривается комплексная процедура верификации продукционных баз знаний с использованием логик с векторной семантикой в варианте VTF-логик при специальном представлении фактов и правил. Описанная техника позволяет решать такие задачи верификации, как выявление несвязанных фактов, выявление незавершённых продукций, выявление логических кругов, контроль соответствия между множеством гипотез и множеством терминальных фактов, выявление противоречий, выявление молчащих продукций, выявление нештатных обрывов цепочек вывода. Продукции в базе знаний упорядочиваются причинно-следственным образом так, что если один и тот же факт входит в правую часть одной продукция и левую часть другой, первая продукция всегда выполняется раньше. В результате процедура верификации имеет линейную сложность по числу правил и экспоненциальную по числу стартовых фактов. Объём вычислений можно существенно уменьшить, выделяя группы фактов, относящихся к конкретной гипотезе. Новым является применение для верификации аппарата логик с векторной семантикой, которые сохраняют способность к выводу при аномальных значениях истинности. Это позволяет, в частности, использовать машину вывода для динамической верификации знаний. В результате не требуется вводить в систему дополнительные архитектурные элементы (например, таблицы решений), создавать внешние верифицирующие программы и т.п. Получение решения обеспечивается штатными средствами экспертной системы. Статическая верификация обеспечивается специальным представлением фактов и правил.

Бесплатно

Комплексный подход к анализу аргументативных отношений в текстах научной коммуникации

Сидорова Е.А., Ахмадеева И.Р., Загорулько Ю.А., Кононенко И.С., Серый А.С., Чагина П.М., Шестаков В.К.

Статья научная

Рассматривается задача автоматического анализа аргументации в текстах научной коммуникации. Под аргументацией понимается упорядоченная совокупность аргументов, используемых для подтверждения некоторого тезиса. Аргумент включает как минимум одну посылку и одно заключение, связанные аргументативным отношением. Цель работы - экспериментальное исследование нейросетевых подходов к решению задачи поиска и извлечения аргументативных отношений между утверждениями, расположенными близко в тексте. Исследование проводилось на корпусе текстов с аргументативной разметкой, созданной с помощью разработанной веб-платформы. Корпус включал тексты научных новостей, аналитические статьи с сайта Хабр, научные статьи и рецензии. На основе этих текстов построены наборы данных для машинного обучения. Для повышения качества обучения нейросетевых моделей эти наборы дополнены путём применения автоматических методов перефразирования и двойного перевода. Рассмотрено два подхода к обучению моделей: с маркированием индикаторов в текстах и с предварительным обучением языковой модели на задаче предсказания индикаторов. Для оценивания результатов работы моделей предложен подход на основе оценок согласия между экспертами, применяемый для сравнения разметок текстов, созданных вручную. Сравнение коэффициентов согласия между экспертами и обученными моделями показало, что порог качества для извлечения аргументативных связей достигнут на модели с маркированными индикаторами. Анализ ошибок модели проведён путём визуализации полученных результатов. Новизна работы заключается в применении комплексного подхода к созданию наборов данных, обучению моделей и оцениванию результатов, полученных при автоматическом извлечении аргументативных отношений.

Бесплатно

Следующая страница →

Журнал