Инжиниринг онтологий. Рубрика в журнале - Онтология проектирования
Knowledge net: модель и система накопления, представления и использования знаний и данных
Статья научная
Описана разрабатываемая авторами модель Knowledge Net, предназначенная для формализации накопления, представления и использования знаний и данных единого информационного пространства интеллектуального предприятия, в том числе в рамках концепции Индустрия 4.0. В основу модели Knowledge Net положена графовая модель данных. Модель Knowledge Net является частью прикладных разработок цифровой платформы предприятия. Разработка программной системы, поддерживающей модель Knowledge Net, выполняется в концепции открытого программного кода. В работе приведён пример использования программного прототипа для описания объектов производственного предприятия. Ключевой особенностью Knowledge Net, отличающей разработку от известных аналогов, является комбинация таких свойств, как поддержка многоаспектности описания субъектов и объектов предприятия, возможность расширения сети понятий и сущностей вместе с развитием предприятия, динамическое формирование структуры аспектов и их свойств, множественность возможных типизаций сущностей, представленных моделью Knowledge Net, а также поддержка версионности модели знаний и данных.
Бесплатно
Статья научная
В настоящее время онтологии признаны наиболее эффективным средством формализации и систематизации знаний и данных в научных предметных областях (НПрО). Однако разработка онтологии является сложным и трудоёмким процессом. Практика показала, что при разработке онтологий НПрО, особенно эффективно применение паттернов онтологического проектирования. Это связано с тем, что в онтологии НПрО, как правило, содержится большое количество типовых фрагментов, которые хорошо описываются паттернами онтологического проектирования. Благодаря тому, что использование паттернов онтологического проектирования значительно облегчает разработку онтологии НПрО, к ней можно привлечь экспертов в моделируемой НПрО, не владеющих навыками онтологического моделирования. Для получения онтологии НПрО, необходимо обработать огромное количество публикаций, релевантных моделируемой НПрО. Облегчить и ускорить процесс пополнения онтологии информацией из таких источников можно за счёт использования лексико-синтаксических паттернов онтологического проектирования. В статье представлен подход к автоматизированному построению онтологий НПрО на основе системы разнородных паттернов ОП. Система включает паттерны ОП, предназначенные для разработчиков онтологий, и автоматически построенные на их основе лексико-синтаксические паттерны, с помощью которых может выполняться автоматическое пополнение онтологии информацией, извлекаемой из текстов на естественном языке.
Бесплатно
Автоматизация синтеза составных онтологических паттернов содержания
Статья научная
Применение онтологических паттернов проектирования становится распространенным подходом в онтологическом инжиниринге. Онтологические паттерны являются формализацией проверенных решений, которые могут быть повторно использованы при разработке онтологий. В данной статье основное внимание сосредоточено на одной разновидности онтологических паттернов - онтологических паттернах содержания, которые представляют собой небольшие фрагменты онтологий, формализующие обобщённые ситуации предметной области (например, участие в событии, исполнении роли, наличие частей у объекта и др.). Паттерны содержания используются в качестве строительных блоков при разработке онтологии. В таком случае они, как правило, могут быть расширены, специализированы, объединены разработчиком для получения составного паттерна содержания, который предоставит более сложный онтологический фрагмент, позволяющий обеспечить представление знаний о некотором объекте предметной области с необходимой степенью детализации. Однако выполнения таких композиций паттернов содержания часто не сводится к простому объединению соответствующих им онтологических фрагментов, а требуют их предварительной модификации и последующего связывания их элементов особым образом. Это может потребовать от разработчика наличия знания семантики того или иного паттерна, используемого в композиции, а также навыков онтологического инжиниринга и тем самым усложнить применение паттернов. В данной работе рассматривается проблема автоматизации подбора подходящих паттернов содержания на основе преопределённых отношений между ними и последующего синтеза на их основе составного паттерна в соответствии с требования задачи разработчика онтологии. Рассматривается пример синтеза составного онтологического паттерна содержания с использованием предложенной процедуры.
Бесплатно
Статья научная
В условиях постоянного роста объёмов учебных данных их «ручная» обработка не представляется возможной, уступая место различным моделям и методам машинного обучения. В то же время именно наличие обучающих выборок достаточного объёма позволяет современным алгоритмам машинного обучения хорошо справляться с базовыми прикладными задачами. Однако многие современные задачи сложны и узкоспециализированы. Это ограничивает количество данных, доступных для качественного обучения, снижая эффективность полностью автоматических систем. В работе рассматривается подход к задаче автоматизированного извлечения фактов из коллекций неразмеченных текстовых документов, в условиях малых объёмов учебных данных. Освещаются вопросы интеграции экспертных правил для конкретных предметных областей с обобщёнными, предметно-независимыми моделями машинного обучения, предварительно обученными на больших объёмах данных. Предложенный подход, опираясь на методику активного обучения, позволяет сократить трудозатраты эксперта, необходимые для эффективной генерации шаблонов извлекаемых фактов, сохраняя при этом высокое качество результатов работы системы. Применение предлагаемого метода поиска фактов по шаблону показано на примере задачи поиска информации о целевой аудитории в неструктурированном описании онлайн курсов.
Бесплатно
Статья научная
Представлен подход к определению психологических характеристик пользователя социальных сетей посредством анализа текстовых сообщений в социальных сетях. Предложенный в работе подход заключается в классификации авторских текстов пользователя с использованием машинного обучения. В качестве обучающих данных используются результаты анализа опросов пользователей в соответствии с моделью «Большая пятёрка», а также набор авторских текстовых данных со страниц социальных сетей. Опросник содержит парные высказывания, опрашиваемый определяет степень собственного согласия с тем или иным высказыванием по шкале от 0 до 4. К текстовым ресурсам, используемым в качестве входных данных для классификатора, были применены методы обработки текстов на естественном языке ( NLP ), а также задействована лингвистическая онтология RuWordNet , с целью нивелирования ряда особенностей текстов социальных сетей, например, наличие грамматических ошибок и эмотиконов, затрудняющих процесс семантического анализа. В качестве классификаторов использовались две модели: метод опорных векторов и метод случайного леса. Для оценки эффективности использовалась метрика площади под кривой ошибок ( AUC ROC ). В экспериментах использовались открытые текстовые данные более 1000 пользователей социальной сети.
Бесплатно
Статья научная
Областью исследований является интеллектуальный анализ данных, конкретно - развиваемое авторами направление «онтологический анализ данных», что следует понимать как анализ эмпирических данных о неизученной, неструктурированной предметной области с целью построения ее формальной онтологии. Предметом исследования статьи является формирование набора свойств, которые, как предполагается, характеризуют объекты изучаемой предметной области (и, следовательно, подлежат измерению в самом широком смысле этого слова), но с ограничениями на сочетания таких характеристик у объектов - «ограничениями существования» свойств. Задачи исследования состоят в разработке алгоритмов пошагового формирования набора измеряемых свойств с ограничениями существования, алгоритмов модификации такого набора (замещения и удаления свойств), алгоритма преобразования «естественного» описания этого набора как множества с заданными на нём отношениями в форму, удобную для последующего конструктивного, прагматического использования информации об ограничениях существования в онтологическом анализе данных. В работе используются методы теории множеств и бинарных отношений, модели и методы анализа формальных понятий, а также существующая методология применения ограничений существования для построения формальных онтологий. Отличие и новизна предложенных алгоритмов формирования набора свойств с ограничениями существования заключается в «естественном» и эффективном с точки зрения машинной реализации представлении таких наборов в форме графов и матриц инцидентности. Новизна алгоритмов модификации набора свойств с ограничениями существования - в выполненной впервые алгоритмизации уникальных методов расширения набора измеряемых свойств, непосредственно опирающихся на фундаментальные законы классической логики. Сказанное верно и для алгоритма трансформации набора измеряемых свойств в набор групп свойств, однородных по виду экзистенционального сопряжения свойств-членов. Значение полученных результатов состоит в алгоритмическом обеспечении ряда этапов онтологического анализа данных.
Бесплатно
Анализ данных о поведении пользователей в системах электронного обучения
Статья научная
Рассматриваются современные системы электронного обучения, имеющие возможность записывать действия пользователей, такие как передвижения, использование интерактивных материалов, регистрация на курсы, их завершение и др. Анализ действий пользователей в системах управления процессом обучения предоставляет возможности для персонализации образовательных траекторий. На основе изучения поведения пользователей становится возможным формирование рекомендаций для разработчиков курсов по улучшению контента и структуры, а также рекомендаций по прохождению курса обучающимся. Исследуются данные, содержащиеся в логах активности, для получения информации, поиска зависимостей путём фильтрации релевантных логов, структурирования информации из них и предоставления данных в удобном для анализа и получения выводов виде. Рассматриваются данные основных типов событий, генерируемых в результате записи действий пользователя в системе управления обучением, и сценарии использования результатов анализа этих данных.
Бесплатно
Анализ неполных данных в задачах построения формальных онтологий
Статья научная
В статье рассматривается проблема автоматизации формирования онтологических спецификаций предметных областей на основе измерений - стержневая проблема онтологического анализа данных. Представлены модели и методы, направленные на выявление понятийной структуры и, в конечном счете, формальной онтологии исследуемой предметной области. Фундаментальные реалии накопления эмпирической информации: многократные независимые измерения каждого свойства объекта обучающей выборки; конгруэнтность части процедур измерения; дифференциация доверия к различным источникам данных - отражены в модели обобщенной таблицы «объекты-свойства». Неполнота (неточность, противоречивость, неопределенность) этой информации влечет необходимость использования для её первичной обработки моделей многозначной логики. Результат такой обработки - нестрогий формальный контекст - должен быть аппроксимирован однозначным контекстом, из которого возможен вывод формальных понятий в рамках прикладной ветви теории решёток, известной как «анализ формальных понятий». Исследуется генезис «ограничений существования свойств», которые влияют на корректность аппроксимации нестрогого формального контекста. Предлагаются модели и метод учета этой дополнительной информации. Формулируются прагматически обоснованные принципы преобразования решетки формальных понятий в формальную онтологию. Приводится модельный пример использования разработанных моделей и методов онтологического анализа данных.
Бесплатно
Вероятностные формальные понятия в некоторых задачах классификации
Статья научная
Рассматривается определение формальных понятий как неподвижных точек импликаций. На основе этого определения водится понятие вероятностных формальных понятий путем замены импликаций на специальные максимально специфические вероятностные правила, для которых ранее было доказано, что неподвижные точки для них логически непротиворечивы. Определяется алгоритм ProbClosure обнаружения вероятностных формальных понятий. Для разработки алгоритмов кластеризации и классификации контекст рассматривается как выборка из генеральной совокупности. Обобщая алгоритм ProbClosure, определяются алгоритмы кластеризации ConcClosure и StatClosure путем введения различных функционалов энергии, определяющих степень непротиворечивости правил в неподвижной точке. Алгоритмы классификации получаются путем применения алгоритмов кластеризации к новым данным. Проведено сравнение полученных алгоритмов классификации с решающими деревьями C4.5, ID3 и методом классификации, основанным на решётке формальных понятий. Сравнение проведено на данных репозитория UCI. Полученные результаты показали сравнительно большую точность разработанных алгоритмов по сравнению с указанными методами.
Бесплатно
Визуально-аналитическое мышление и интеллект-карты в онтологическом инжиниринге
Статья научная
Статья посвящена вопросам практического применения принципов визуально-аналитического мышления в задачах структурирования знаний при разработке онтологий. Под визуально-аналитическим мышлением понимается применение методологий, использующих различные виды диаграмм для представления идей, концептов, отношений и процессов. Из известных практически используемых видов диаграмм выбраны интеллект-карты как наиболее распространенный, удобный и простой метод корректного формирования и проектирования онтологий сложных предметных областей. Интеллект-карты отражают иерархические связи между понятиями и позволяют достаточно глубоко отображать особенности и закономерности предметных областей с их спецификой отношений. Бьюзен сформулировал идею интеллект-карт в качестве компактного средства организации конспектов, которое впоследствии было доведено до программной реализации и получило широкое распространение в различных областях образования, научных исследований и бизнеса. В статье рассматриваются основные принципы формирования таких карт и анализируются типичные ошибки разработчиков. Впервые предлагается классификация ошибок с учётом синтаксических, семантических и прагматических аспектов. Приводится разбор наиболее частых ошибок, связанных с нарушением правил «хорошего обобщения» и «разумного минимализма». Статья обобщает десятилетний опыт обучения и тренинга навыков визуально-аналитического мышления на программах Executive MBA и на корпоративных тренингах и может быть интересна разработчикам интеллектуальных систем и систем управления знаниями.
Бесплатно
Доверие к данным при пополнении онтологий и графов знаний
Статья научная
Рассматривается задача оценки доверия к информации, извлекаемой из текстовых источников для пополнения онтологий или графов знаний. За единицу информации или факт, принимается минимальное знание об экземпляре предметной области, выражаемое единичным RDF -триплетом. Приведено описание вероятностной модели оценки доверия, основанной на марковских случайных процессах. При оценке модель строится на основании доступной информации об источниках с учётом ранее извлечённых данных. Предложен метод оценки доверия к информации с параллельным взвешиванием источников. Подобный подход востребован в ситуациях, когда качественные характеристики источников неизвестны или недоступны. В рамках тестирования модели были автоматически сгенерированы наборы численных данных различных объёмов, проведены эксперименты по взвешиванию источников и оценке доверия к извлекаемой из них информации. Результаты экспериментов показали, что в большинстве случаев веса источников, вычисляемые на основе предлагаемой модели, тем больше, чем меньше среднее отклонение предоставленной ими информации от истинной, доверие к фактам увеличивается с уменьшением расстояния до истинных данных. Выполнено сравнение с моделями агрегации данных. В большинстве случаев агрегация, выполненная на основе оценки доверия, демонстрировала наименьшее среднее отклонение от истинных данных среди рассмотренных моделей. Полученные результаты показывают, что предлагаемая модель эффективна в сравнении с другими аналогичными моделями и может применяться в задачах оценки доверия к фактам, представляемым вещественными числами.
Бесплатно
Интеграция телекоммуникационных сетей в системе мониторинга с использованием доменных онтологий
Статья научная
Обсуждаются вопросы проектирования облачных систем мониторинга телекоммуникационных сетей, основанных на построении и применении моделей таких сетей в форме графов знаний. Предлагаемые системы мониторинга объединяют в себе функции систем, используемых различными операторами телекоммуникационных сетей. Рассматриваемый подход к проектированию предполагает использование ряда общих онтологий и онтологий доменного уровня, таких как доменная онтология телекоммуникационных услуг ( TSDO ) и онтология гибридной телекоммуникационной сети ( ToCo ). Для учёта специфики сетей и операторов в разрабатываемой системе мониторинга предусматривается расширение доменной онтологии. В статье рассматривается случай объединения в рамках одной системы мониторинга телекоммуникационных сетей, построенных на основе различных онтологий доменного уровня либо без использования онтологической модели, путём добавления новых онтологий. Для автоматизации процесса проектирования предложен алгоритм сопоставления классов доменных онтологий с компонентами моделей телекоммуникационных сетей. Показано применение предложенного подхода на примере задачи добавления нового сегмента сети в систему мониторинга оператора кабельного телевидения.
Бесплатно
Другой
Существует множество связей между искусственным интеллектом, обучением, логическим выводом и онтологиями. Онтологический саммит 2017 года был посвящён исследованию, выявлению и формулированию отношений между этими областями. Для популяризации онтологической науки в рамках сессий онтологического саммита 2017был выделен диалоговый инструментарий, что способствовало обсуждению и обмену знаниями между заинтересованными лицами. Результаты подтверждаются примерами из различных областей. Материал представлен в форме коммюнике, который дополнен ссылками на источники в Интернете.
Бесплатно
Комплексная верификация продукционных баз знаний с использованием VTF-логик
Статья научная
Рассматривается комплексная процедура верификации продукционных баз знаний с использованием логик с векторной семантикой в варианте VTF-логик при специальном представлении фактов и правил. Описанная техника позволяет решать такие задачи верификации, как выявление несвязанных фактов, выявление незавершённых продукций, выявление логических кругов, контроль соответствия между множеством гипотез и множеством терминальных фактов, выявление противоречий, выявление молчащих продукций, выявление нештатных обрывов цепочек вывода. Продукции в базе знаний упорядочиваются причинно-следственным образом так, что если один и тот же факт входит в правую часть одной продукция и левую часть другой, первая продукция всегда выполняется раньше. В результате процедура верификации имеет линейную сложность по числу правил и экспоненциальную по числу стартовых фактов. Объём вычислений можно существенно уменьшить, выделяя группы фактов, относящихся к конкретной гипотезе. Новым является применение для верификации аппарата логик с векторной семантикой, которые сохраняют способность к выводу при аномальных значениях истинности. Это позволяет, в частности, использовать машину вывода для динамической верификации знаний. В результате не требуется вводить в систему дополнительные архитектурные элементы (например, таблицы решений), создавать внешние верифицирующие программы и т.п. Получение решения обеспечивается штатными средствами экспертной системы. Статическая верификация обеспечивается специальным представлением фактов и правил.
Бесплатно
Комплексный подход к анализу аргументативных отношений в текстах научной коммуникации
Статья научная
Рассматривается задача автоматического анализа аргументации в текстах научной коммуникации. Под аргументацией понимается упорядоченная совокупность аргументов, используемых для подтверждения некоторого тезиса. Аргумент включает как минимум одну посылку и одно заключение, связанные аргументативным отношением. Цель работы - экспериментальное исследование нейросетевых подходов к решению задачи поиска и извлечения аргументативных отношений между утверждениями, расположенными близко в тексте. Исследование проводилось на корпусе текстов с аргументативной разметкой, созданной с помощью разработанной веб-платформы. Корпус включал тексты научных новостей, аналитические статьи с сайта Хабр, научные статьи и рецензии. На основе этих текстов построены наборы данных для машинного обучения. Для повышения качества обучения нейросетевых моделей эти наборы дополнены путём применения автоматических методов перефразирования и двойного перевода. Рассмотрено два подхода к обучению моделей: с маркированием индикаторов в текстах и с предварительным обучением языковой модели на задаче предсказания индикаторов. Для оценивания результатов работы моделей предложен подход на основе оценок согласия между экспертами, применяемый для сравнения разметок текстов, созданных вручную. Сравнение коэффициентов согласия между экспертами и обученными моделями показало, что порог качества для извлечения аргументативных связей достигнут на модели с маркированными индикаторами. Анализ ошибок модели проведён путём визуализации полученных результатов. Новизна работы заключается в применении комплексного подхода к созданию наборов данных, обучению моделей и оцениванию результатов, полученных при автоматическом извлечении аргументативных отношений.
Бесплатно
Логики с векторной семантикой как средство верификации баз знаний
Статья научная
Обсуждаются общие вопросы автоматизированного поиска артефактов в продукционных базах знаний на основе логик с векторной семантикой в варианте V TF-логик. Рассматриваются случаи ложности антецедента продукции при всех допустимых значениях истинности входных посылок, наличие нигде не используемых терминов и генерирование неопределённых значений истинности, появление противоречий. Алгоритмизация рассматривается как организация прямого присоединённого логического вывода, вскрывающего артефакты баз знаний. Первые два случая выявляются подсчётом числа срабатываний каждой продукции и выявлением терминов, не привязанных к продукциям. Противоречие обнаруживается выводом с проверкой истинности заключений-гипотез. Наличие заключения с истинностью á1; 1ñ (полное противоречие) сигнализирует о противоречии на одном из этапов рассуждений, который устанавливается обратной трассировкой логической цепочки. Необходимым этапом вывода является объединение свидетельств с использованием 11-композиции (второй формы дизъюнкции в многозначной V TF-логике). Приведены: принцип расчёта истинности заключения на основе истинности посылок, стратегии объединения свидетельств, числовые меры, которые могут использоваться в ходе вывода.
Бесплатно
Метод решения задачи запроса дополнительной информации
Статья научная
В статье рассматривается задача сбора необходимой информации о ситуации, обычно решаемая в процессе диагностики для сокращения числа гипотез о диагнозе. На практике при решении этих двух задач важно учитывать все виды причинно-следственных отношений, изменчивость значений признаков с течением времени, влияние событий на динамику значений признаков. Предложенный в статье алгоритм решения этой задачи сводит её к выявлению дифференциаторов среди известных измеряемых признаков. Выявление дифференциаторов производится с использованием знаний о развивающихся внутренних процессах и влиянии на них внешних событий. Такой алгоритм применим для решения задачи запроса дополнительной информации для распознавания ситуаций в различных областях деятельности.
Бесплатно
Моделирование аргументации в научно-популярном дискурсе с использованием онтологий
Статья научная
Научно-популярный дискурс становится неотъемлемым элементом научной деятельности, так как выступает в качестве медиатора, обеспечивающего коммуникацию между научным сообществом и широкой аудиторией. Поэтому необходимо, чтобы тексты научно-популярных книг и статьи содержали аргументацию высокого качества. В связи с этим исследование аргументации, представленной в научно-популярной литературе, является актуальной задачей. В статье предложен подход к моделированию аргументации, используемой в научно-популярной литературе. Такое моделирование выполняется с использованием средств онтологии аргументации, основанной на формате AIF (Argument Interchange Format), принятом международным сообществом в качестве стандартной нотации для описания аргументов и аргументативных структур. Авторы дополнили эту онтологию средствами, необходимыми для моделирования аргументации, используемой в научно-популярном дискурсе. Новые средства позволяют моделировать целевую аудиторию и представлять содержание утверждений, входящих в аргументы. В терминах расширенной онтологии описываются общепризнанные и оригинальные схемы аргументации, их значимость для различных аудиторий, структура и составные части аргументов, а также могут представляться конкретные аргументы, извлечённые из исследуемых текстов, и их составные элементы. Онтология аргументации с такими свойствами описывается впервые. Данная онтология используется в качестве информационной модели программного комплекса, предназначенного для моделирования и анализа аргументации, используемой в научно-популярной литературе.
Бесплатно
Модель-ориентированный подход к построению связанных данных на основе разнородных источников
Статья научная
Сегодня доступно большое число различных источников данных. Многие источники представляют значительную ценность для принятия обоснованных решений в различных предметных областях. Простота и эффективность использования данных зависят от возможности их интеграции в единую модель, последовательно и всесторонне описывающую интересующий предмет. Получению такой модели препятствует то, что элементы разных источников не связаны друг с другом, а сами данные представлены в различных форматах. Несмотря на то, что консорциум W3C предложил языки единообразного и связанного описания данных, до сих пор существует значительное число издателей, публикующих несвязанные данные. В настоящей работе предлагается подход, на основе которого может быть создан эффективный инструмент для обработки больших объёмов несвязанных данных. Новым является автоматизация построения онтологии процесса связывания данных на основе отображения множества элементов онтологии, описывающей источник данных, во множество элементов онтологии предметной области. Полученная онтология процесса связывания может служить для специализаций этого процесса пользователем, для дальнейшей его оптимизации и реализации на различных вычислительных платформах. В частности, в работе продемонстрирована возможность генерации программного кода процесса связывания, исполняемого на высокопроизводительной масштабируемой платформе. Полученные результаты позволяют говорить о целесообразности развития предложенного подхода.
Бесплатно