Искусственный интеллект, инженерия данных и знаний. Рубрика в журнале - Информатика и автоматизация (Труды СПИИРАН)

Публикации в рубрике (66): Искусственный интеллект, инженерия данных и знаний
все рубрики
Идентификация сельскохозяйственных культур с использованием радарных изображений

Идентификация сельскохозяйственных культур с использованием радарных изображений

Константин Николаевич Дубровин, Алексей Сергеевич Степанов, Андрей Леонидович Верхотуров, Татьяна Александровна Асеева

Статья

Одной из наиболее важных задач в практической сельскохозяйственной деятельности является идентификация сельскохозяйственных культур, произрастающих на отдельных полях в данный момент и ранее. Для снижения трудоемкости процесса идентификации в последние годы используются данные дистанционного зондирования Земли (ДЗЗ), в том числе значения индексов, рассчитываемые по ходу периода вегетации. При этом обработка оптических спутниковых снимков и получение достоверных значений индексов зачастую бывает затруднено из-за облачности во время съемки. Для решения этой проблемы в статье предложено использовать в качестве основного показателя, характеризующего сельскохозяйственную культуру, кривую сезонного хода радарного вегетационного индекса с двойной поляризацией (DpRVI). В период 2017-2020 гг. для идентификации культур на опытных полях Дальневосточного научно-исследовательского института сельского хозяйства (ДВ НИИСХ) было получено и обработано 48 радарных снимков Хабаровского муниципального района Хабаровского края со спутника Sentinel-1 (разрешение 22 м, интервал съемки − 12 дней). В качестве основных идентифицируемых культур выступали соя и овес. Также были добавлены пиксели полей, не занятых данными культурами (кормовые травы, заброшенные поля). Были получены ряды значений DpRVI как для отдельных пикселей и полей, так и аппроксимированные ряды для трех классов. Аппроксимация проводилась с использованием функции Гаусса, двойной логистической функции, квадратного и кубического полиномов. Установлено, что оптимальным алгоритмом аппроксимации является использование двойной логистической функции (средняя ошибка составила 4,6%). В среднем, ошибка аппроксимации индекса вегетации для сои не превышала 5%, для многолетних трав – 8,5%, а для овса – 11%. Для опытных полей общей площадью 303 га с известным севооборотом была проведена классификация взвешенным методом k ближайших соседей (обучающая выборка сформирована по данным 2017-2019 гг, тестовая -2020 г.). В результате верно идентифицировано 90% полей. Общая точность классификации по пикселям составила 73%, что позволило выявить несоответствие реальных границ полей заявленным, определить заброшенные и заболоченные участки. Таким образом, установлено, что индекс DpRVI может быть использован для идентификации сельскохозяйственных культур юга Дальнего Востока и служить основой для автоматического классифицирования пахотных земель.

Бесплатно

Извлечение семантической информации из графических схем

Извлечение семантической информации из графических схем

Валерий Викторович Миронов, Артем Сергеевич Гусаренко, Гаяз Ахтямович Тугузбаев

Статья

Рассматривается задача извлечения семантической информации из электронного документа, заданного в формате векторной графики и содержащего графическую модель (схему), построенную с помощью графического редактора. Задача состоит в программном извлечении определенных структурных и параметрических свойств схемы и занесении их в базу данных для последующего использования. На основе проведенного анализа возможностей графических редакторов сделан вывод об актуальности этой задачи для универсальных редакторов, не привязанных к конкретным графическим нотациям и использующих открытые графические форматы документов, что допускает программную обработку. Предлагаемый подход рассматривает графические документы на трёх уровнях абстракции: концептуальном (семантические свойства схемы), логическом (представление семантических свойств на внутреннем уровне документа) и физическом (внутренняя организация графического документа). Решение задачи основано на построении концептуально-логического отображения, то есть отображения концептуальной модели схемы в логическую модель графического документа с учетом его физической модели. В рамках подхода разработан алгоритм построения указанного отображения, представленный в виде объектно-ориентированного псевдокода. Исследование внутренней разметки в открытых графических форматах позволило построить модели идентификации элементов схемы и их соединений между собой, что необходимо для конкретного применения алгоритма. Получены выражения для адресации элементов схемы и доступа к их свойствам. Предложенный подход реализован на основе ситуационно-ориентированной парадигмы, в рамках которой процесс извлечения управляется иерархической ситуационной моделью. Обрабатываемые данные задаются в ситуационной модели в виде виртуальных документов, отображаемых на разнородные внешние источники данных. Для решаемой задачи рассматривается отображение на два варианта форматов векторной графики: на «плоский» файл разметки и на набор таких файлов в электронном архиве. Практическое использование результатов иллюстрируется на примере извлечения семантической информации из графических моделей, разрабатываемых на различных этапах проектирования баз данных.

Бесплатно

Информационные технологии цифровой адаптационной медицины

Информационные технологии цифровой адаптационной медицины

Алексей Валерьевич Богомолов

Статья

В статье дана комплексная характеристика информационных технологий цифровой адаптационной медицины. Акцент сделан на применимость к разработке специализированных автоматизированных комплексов, программных моделей и систем изучения адаптационных возможностей человека к условиям внешней среды. Сформулированы требования к информационным технологиям повышения этих возможностей. Отражены особенности информационных технологий применительно к проведению прикладных системных исследований обеспечения жизнедеятельности, сохранения профессионального здоровья и продления долголетия человека. Охарактеризованы шесть базовых концепций адаптационной медицины с акцентом на особенности математического обеспечения обработки информации, определены приоритеты совершенствования информационных технологий, применяемых в этих концепциях. Рассмотрены информационные технологии, применяемые в задачах обеспечения профессиональной работоспособности человека с акцентом на необходимость применения адекватных методов диагностики состояния человека на всех этапах профессиональной деятельности и необходимости разработки технологий цифровых двойников, адекватно моделирующих адаптационные процессы и реакции организма в реальных условиях. Дана характеристика информационных технологий персонифицированного мониторинга рисков здоровью, позволяющих объективизировать воздействия физических факторов условий деятельности и реализовать индивидуальное и коллективное информирование персонала об опасности окружающей среды. Показана насущная необходимость стандартизации методов обработки информации при разработке информационных технологий цифровой адаптационной медицины в интересах обеспечения физиологической адекватности и математической корректности подходов к получению и обработке информации о состоянии человека. Сделаны выводы о том, что приоритеты совершенствования информационных технологий цифровой адаптационной медицины связаны с внедрением достижений четвёртой промышленной революции, в том числе, концепции социокиберфизических систем.

Бесплатно

Использование нечетких коалиционных игр при принятии социально ориентированных решений при госпитализации в условиях пандемии

Использование нечетких коалиционных игр при принятии социально ориентированных решений при госпитализации в условиях пандемии

Александр Викторович Смирнов, Елена Георгиевна Молл, Николай Николаевич Тесля

Статья

Проблемы организации медицинской помощи в условиях пандемии COVID-19, связанные с неопределенностью и ограниченностью различных ресурсов, привели к необходимости совершенствования систем принятия решений при госпитализации пациентов. С помощью ситуационного управления можно улучшить процесс принятия решений, чтобы он лучше соответствовал текущей ситуации. При этом важным становится учет влияния психологических факторов на решения, принимаемые при госпитализации. В статье предлагается использование коалиционных игр для ситуационного управления при госпитализации больных. Игроками и участниками коалиции являются госпитали, бригады скорой помощи, пациенты и центры компьютерной томографии. Цель игры - сформировать коалицию участников, обеспечивающую максимальную выгоду по времени и стоимости госпитализации в момент принятия решения. Рассмотрены общая схема госпитализации, основные источники информации о ситуации, постановка и формализация проблемы. Проведен эксперимент, в котором проверялось формирование коалиции во время госпитализации на основе данных, полученных при анализе динамики пандемии COVID-19. В связи с малым объемом данных и отсутствием апробированных моделей развития ситуации при проведении расчета часть параметров была оценена с использованием эвристических моделей развития ситуации, основанных на анализе информации из открытых источников информации. Результат эксперимента содержит набор коалиций, обеспечивающих максимальную выгоду, при указанных ограничениях. При этом время расчета коалиционной игры позволяет использовать предложенную модель поддержки принятия решений при госпитализации в диспетчерской службе станций скорой помощи.

Бесплатно

Итеративная настройка параметров моделей на основе древовидных ансамблей с использованием байесовской оптимизации для прогнозирования рака молочной железы

Итеративная настройка параметров моделей на основе древовидных ансамблей с использованием байесовской оптимизации для прогнозирования рака молочной железы

Айман Алсабри, Малек Альгабри

Статья

Представлен метод итеративной настройки параметров моделей на основе ансамблей деревьев с использованием настройки байесовских гиперпараметров для прогнозирования состояний на примере рака молочной железы. Предлагаемый метод использует три различных набора данных, в том числе набор данных по диагностическому раку молочной железы Висконсина (WDBC), набор данных по надзору, эпидемиологии и конечным результатам (SEER) по раку молочной железы и набор данных по раку молочной железы в Коимбре (BCCD), а также реализует набор данных на основе древовидных ансамблей. Модели, в частности AdaBoost, Gentle-Boost, LogitBoost, Bag и RUSBoost, для прогнозирования рака молочной железы. Байесовская оптимизация использовалась для итеративной настройки гиперпараметров моделей, а производительность моделей оценивалась с использованием нескольких показателей, включая точность, прецизионность, полноту и оценку f1. Наши результаты показывают, что предложенный метод значительно повышает производительность моделей на основе ансамблей деревьев, что приводит к более высокой точности, прецизионности, полноте и оценке f1. По сравнению с другими современными моделями предлагаемый метод более эффективен. Он достиг 100% идеальных результатов по точности, прецизионности, полноте и оценке F1 в наборе данных WDBC. В наборе данных SEER BC точность метода составила 95,9%, прецизионность 97,6%, полнота 94,2% и оценка F1 95,9%. Для набора данных BCCD метод достиг точности 94,7%, прецизионности 90%, полноты 100% и оценки F1 94,7%. Результаты этого исследования имеют важное значение для медицинских работников, поскольку раннее выявление рака молочной железы может значительно повысить шансы на выживание. В целом, это исследование вносит ценный вклад в область прогнозирования рака молочной железы с использованием машинного обучения.

Бесплатно

Классификация болезней листьев яблони с использованием набора данных изображений: подход многослойной сверточной нейронной сети

Классификация болезней листьев яблони с использованием набора данных изображений: подход многослойной сверточной нейронной сети

Антор Махмудул Хасан, Ризу Мд Ракиб Ул Ислам, Кумар Авинаш

Статья

Сельское хозяйство является одним из основных источников экономического роста в России; мировое производство яблок в 2019 году составило 87 миллионов тонн. Болезни листьев яблони являются основной причиной ежегодного сокращения производства яблок, что приводит к огромным экономическим потерям. Автоматизированные методы выявления болезней листьев яблони позволяют сократить трудоемкую работу по мониторингу яблоневых садов и раннему выявлению симптомов болезни. В этой статье предложена многослойная сверточная нейронная сеть (MCNN), которая способна классифицировать листья яблони по одной из следующих категорий: парша яблони, черная гниль и болезни яблоневой кедровой ржавчины, используя недавно созданный набор данных. В этом методе мы использовали методы аффинного преобразования и перспективного преобразования для увеличения размера набора данных. После этого операции предварительной обработки на основе метода кадрирования и выравнивания гистограммы OpenCV использовались для улучшения предлагаемого набора данных изображения. Экспериментальные результаты показывают, что система достигает точности обучения 98,40% и точности проверки 98,47% для предложенного набора данных изображения с меньшим количеством параметров обучения. Результаты предполагают более высокую точность классификации предложенной модели MCNN по сравнению с другими известными современными подходами. Эта предложенная модель может использоваться для обнаружения и классификации других типов болезней яблони из разных наборов данных изображений.

Бесплатно

Контекстно-управляемый подход к интеллектуальной поддержке принятия решений на основе цифровых следов пользователей

Контекстно-управляемый подход к интеллектуальной поддержке принятия решений на основе цифровых следов пользователей

Александр Викторович Смирнов, Татьяна Викторовна Левашова

Статья

Разрабатывается контекстно-управляемый подход к интеллектуальной поддержке принятия решений на основе цифровых следов пользователей. Рассматриваются вопросы использования концепции жизни человека в цифровой среде при интеллектуальной поддержке принятия решений. Исследуются цели обращения к цифровым следам человека в различных проблемных областях и выявляются подходы к моделированию жизни человека в цифровой среде. Предлагается подход к интеллектуальной поддержке принятия решений, в котором цифровые следы служат источником информации для выявления предпочтений пользователей и их поведения при принятии решений. Развиваются взгляды на поддержку принятия решений на основе учета следов пользователей в цифровой среде. Результатами исследования являются спецификация требований к интеллектуальной поддержке принятия решений на основе цифровых следов пользователя, принципы, концептуальная и информационная модели такой поддержки.

Бесплатно

Концепция обработки, анализа и визуализации геофизических данных на основе элементов тензорного исчисления

Концепция обработки, анализа и визуализации геофизических данных на основе элементов тензорного исчисления

Гульнара Равилевна Воробьева, Андрей Владимирович Воробьев, Глеб Олегович Орлов

Статья

Одним из основных подходов к обработке, анализу и визуализации геофизических данных является применение геоинформационных систем и технологий, что обусловлено их геопространственной привязкой. Вместе с тем, сложность представления геофизических данных связана с их комплексной структурой, предполагающей множество составляющих, которые имеют одну и ту же геопространственную привязку. Яркими примерами данных такой структуры и формата являются гравитационные и геомагнитные поля, которые в общем случае задаются трех и четырехкомпонентными векторами с разнонаправленными осями координат. При этом на сегодняшний день отсутствуют решения, позволяющие визуализировать указанные данные в комплексе, не декомпозируя их на отдельные скалярные значения, которые, в свою очередь, могут быть представлены в виде одного или многих пространственных слоев. В этой связи в работе предложена концепция, использующая элементы тензорного исчисления для обработки, хранения и визуализации информации такого формата. Формализован механизм тензорного представления компонент поля с возможностью его комбинирования с другими данными такого же формата, с одной стороны, и свертки при сочетании с данными более низкого ранга. На примере гибридной реляционно-иерархической модели данных предложен механизм хранения информации по тензорным полям, предусматривающий возможность описания и применения инструкций по трансформации при переходе между различными системами координат. В работе рассматривается применение подхода при переходе от декартовой к сферической системе координат при представлении параметров геомагнитного поля. Для комплексной визуализации параметров тензорного поля предложен подход, основанный на применении тензорных глифов. В качестве последних при этом используются суперэллипсы с осями, соответствующими рангу тензора. При этом атрибутивные значения предлагается визуализировать относительно осей графического примитива таким образом, что распределение данных может быть задано посредством варьирования градиента монохромного представления параметра вдоль оси. Работоспособность концепции была исследована в ходе сравнительного анализа тензорного подхода с решениями, основанными на скалярной декомпозиции соответствующих комплексных значений с последующим их представлением в виде одного или многих пространственных слоев. Проведенный анализ показал, что применение предложенного подхода позволит в значительной степени повысить наглядность формируемого геопространственного изображения без необходимости сложного перекрывания пространственных слоев.

Бесплатно

Машинное обучение в задачах base-calling для методов секвенирования нового поколения

Машинное обучение в задачах base-calling для методов секвенирования нового поколения

Андрей Геннадьевич Бородинов, Владимир Владимирович Манойлов, Игорь Вячеславович Заруцкий, Александр Иванович Петров, Владимир Ефимович Курочкин, Алексей Сергеевич Сараев

Статья

Развитие технологий секвенирования следующего поколения (NGS) внесло существенный вклад в тенденции снижения затрат и получения массивных данных секвенирования. В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс (АПК) для расшифровки последовательности нуклеиновых кислот методом массового параллельного секвенирования (Нанофор СПС). Алгоритмы обработки изображений, входящие в состав АПК, играют существенную роль в решении задач расшифровки генома. Финальной частью такого предварительного анализа сырых данных является процесс base-calling. Base-calling — это процесс определения нуклеотидного основания, которое генерирует соответствующее значение интенсивности в каналах флуоресценции для различных длин волн на кадрах изображения проточной ячейки для различных циклов секвенирования методом синтеза. Приведен обширный анализ различных подходов к решению задач base-calling и сводка распространенных процедур, доступных для платформы Illumina. Рассмотрены различные химические процессы, включенные в технологию секвенирования методом синтеза, вызывающие смещения в значениях регистрируемых интенсивностей, включая эффекты фазирование / префазирование (phasing/prephasing), затухания сигнала (signal decay) и перекрестные помехи (cross-talk). Определена обобщённая модель, в рамках которой рассматриваются возможные реализации. Рассмотрены возможные подходы машинного обучения (machine learning) для создания и оценки моделей, реализующих этап обработки base-calling. Подходы ML принимают различные формы, включая обучение без учителя (unsupervised), обучение с ча-стичным привлечением учителя (semi-supervised), обучение с учителем (supervised). В работе показана возможность применения различных алгоритмов машинного обучения на основе платформы Scikit-learn. Отдельной важной задачей является оптимальное выделение признаков, выделенных в обнаруженных кластерах на проточной ячейке для машинного обучения. Наконец, на ряде данных секвенирования для приборов MiSeq Illumina и Нанофор СПС показана перспективность метода машинного обучения для решения задачи base-calling.

Бесплатно

Метод векторизации спутниковых снимков на основе их разложения по топологическим особенностям

Метод векторизации спутниковых снимков на основе их разложения по топологическим особенностям

Сергей Владимирович Еремеев, Артём Владимирович Абакумов, Дмитрий Евгеньевич Андрианов, Тамара Александровна Ширабакина

Статья

Получение из растрового изображения объектов в векторном виде необходимо во многих сферах. Существующие методы векторизации спутниковых снимков не обеспечивают нужной точности автоматизации. В данной области требуется применять ручной труд, но объём поступающей информации зачастую превышает скорость обработки. Поэтому необходимы новые подходы для решения подобного рода задач. В статье предложен метод векторизации объектов на снимках с использованием разложения изображения на топологические особенности, который разбивает изображение на отдельные связанные структуры и при дальнейшей работе опирается уже на них. В результате уже на этом этапе изображение разбивается на древовидную структуру. Данный метод уникален по своему образу работы и в корне отличается от традиционных способов векторизации снимков. Большинство методов работает с помощью пороговой бинаризации, и основной задачей для них становится подбор порогового коэффициента. Главной проблемой в таком случае становится ситуация, когда на изображении имеется несколько объектов, для которых необходим разный порог. Метод отходит от непосредственной работы с яркостной характеристикой в сторону анализа топологической структуры каждого объекта. Предлагаемый метод имеет корректное математическое обоснование, в основе которого лежит алгебраическая топология. На основе метода разработана геоинформационная технология для автоматической векторизации растровых снимков с целью поиска находящихся на нем объектов. Тестирование проводилось на спутниковых снимках с разных масштабов. Разработанный метод сравнивался со специальным инструментом для векторизации R2V и превзошел его по средней точности. Средний процент у автоматической векторизации предложенного метода составил 81%, а у полуавтоматического векторизующего модуля R2V – 73%.

Бесплатно

Метод интеллектуальной локализации взгляда на основе анализа ЭЭГ с использованием носимой головной повязки

Метод интеллектуальной локализации взгляда на основе анализа ЭЭГ с использованием носимой головной повязки

Владимир Русланович Романюк, Алексей Михайлович Кашевник

Статья

В стремительно развивающейся цифровой эпохе интерфейсы человеко-машинного взаимодействия непрерывно совершенствуется. Традиционные методы взаимодействия с компьютером, такие как мышь и клавиатура, дополняются и даже заменяются более интуитивными способами, которые включают технологии отслеживания глаз. Обычные методы отслеживания глаз используют камеры, которые отслеживают направление взгляда, но имеют свои ограничения. Альтернативным и многообещающим подходом к отслеживанию глаз является использование электроэнцефалографии, техники измерения активности мозга. Исторически ЭЭГ была ограничена в основном лабораторными условиями. Однако мобильные и доступные устройства для ЭЭГ появляются на рынке, предлагая более универсальное и эффективное средство для регистрации биопотенциалов. В данной статье представлен метод локализации взгляда с использованием электроэнцефалографии, полученной с помощью мобильного регистратора ЭЭГ в виде носимой головной повязки (компании BrainBit). Это исследование направлено на декодирование нейрональных паттернов, связанных с разными направлениями взгляда, с использованием продвинутых методов машинного обучения, в частности, нейронных сетей. Поиск паттернов выполняется как с использованием данных, полученных с помощью носимых очков с камерой для отслеживания глаз, так и с использованием неразмеченных данных. Полученные в исследовании результаты демонстрируют наличие зависимости между движением глаз и ЭЭГ, которая может быть описана и распознана с помощью предсказательной модели. Данная интеграция мобильной технологии ЭЭГ с методами отслеживания глаз предлагает портативное и удобное решение, которое может быть применено в различных областях, включающих медицинские исследования и разработку более интуитивных компьютерных интерфейсов.

Бесплатно

Метод расчета коэффициентов компетентности участников группового принятия решений для выбора наилучшей альтернативы при мультивариантности результата

Метод расчета коэффициентов компетентности участников группового принятия решений для выбора наилучшей альтернативы при мультивариантности результата

Денис Сергеевич Соловьев

Статья

В работе рассматривается проблема получения наилучшей альтернативы с помощью методов принятия решений, основанных на опыте специалиста и математических расчетов. Для решения данной проблемы подходит групповое принятие решений, однако оно может привести к выбору нескольких наилучших альтернатив (мультивариантности результата). Учет компетентности позволит отдать приоритет решению более компетентных участников и устранить возникновение нескольких наилучших альтернатив в процессе группового принятия решений. Сформулирована задача определения коэффициентов компетентности для участников группового принятия решений, которые обеспечивают выбор наилучшей альтернативы при мультивариантности результата. Разработан метод решения поставленной задачи, который включает в себя дискретизацию диапазона изменения входных переменных и уточнение в нем значений коэффициентов компетентности участников группового принятия решений. Уточнение выполняется с использованием либо мажоритарного принципа, либо с помощью лица, принимающего решение. Последующее вычисление коэффициентов компетентности для участников группового принятия решений осуществляется при помощи локальной линейной интерполяции уточненного коэффициента компетентности в окружающих точках из дискретизированного диапазона. Использование предложенного метода решения поставленной задачи рассмотрено на примере группового принятия решений по основным разновидностям мажоритарного принципа для выбора варианта технологического процесса нанесения гальванического покрытия. В результатах показано, что предложенный метод расчета коэффициентов компетентности участников группового принятия решений через локальную линейную интерполяцию является наиболее эффективным для выбора наилучшей альтернативы при мультивариантности результата по мажоритарному принципу относительного большинства.

Бесплатно

Метод формирования цифровой тени процесса перемещения человека на основе объединения систем захвата движений

Метод формирования цифровой тени процесса перемещения человека на основе объединения систем захвата движений

Артем Дмитриевич Обухов, Андрей Андреевич Волков, Надежда Андреевна Вехтева, Кирилл Игоревич Патутин, Александра Олеговна Назарова, Денис Леонидович Дедов

Статья

В статье рассматривается задача формирования цифровой тени процесса перемещения человека. Проведен анализ предметной области, который показал необходимость формализации процесса создания цифровых теней для имитации движений человека в виртуальном пространстве, тестировании программно-аппаратных комплексов, функционирующих на основе действий человека, а также в различных системах опорно-двигательной реабилитации. Выявлено, что среди существующих подходов к захвату движений человека нельзя выделить универсальный и стабильно работающий при различных условиях внешней среды. Разработан метод формирования цифровой тени на основе комбинирования и синхронизации данных из трех систем захвата движений (трекеры виртуальной реальности, костюм motion capture и камеры с использованием технологий компьютерного зрения). Объединение перечисленных систем позволяет получить комплексную оценку положения и состояния человека независимо от условий внешней среды (электромагнитные помехи, освещенность). Для реализации предложенного метода проведена формализация цифровой тени процесса перемещения человека, включающая описание механизмов сбора и обработки данных от различных систем захвата движений, а также этапы объединения, фильтрации и синхронизации данных. Научная новизна метода заключается в формализации процесса сбора данных о перемещении человека, объединении и синхронизации аппаратного обеспечения используемых систем захвата движений для создания цифровых теней процесса перемещения человека. Полученные теоретические результаты будут использоваться в качестве основы для программной абстракции цифровой тени в информационных системах для решения задач тестирования, имитации человека и моделирования его реакции на внешние раздражители за счет обобщения собранных массивов данных о его перемещении.

Бесплатно

Методы и модели извлечения знаний из медицинских документов

Методы и модели извлечения знаний из медицинских документов

Рустэм Халитович Зулкарнеев, Нафиса Исламовна Юсупова, Ольга Николаевна Сметанина, Майя Марсовна Гаянова, Алексей Михайлович Вульфин

Статья

В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.

Бесплатно

Методы классификации ЭЭГ-паттернов воображаемых движений

Методы классификации ЭЭГ-паттернов воображаемых движений

Николай Владимирович Капралов, Жанна Владимировна Нагорнова, Наталья Вячеславовна Шемякина

Статья

Рассматриваются наиболее перспективные методы классификации электроэнцефалографических сигналов при разработке неинвазивных интерфейсов мозг–компьютер и теоретических подходов для успешной классификации электроэнцефалографических паттернов. Приводится обзор работ, использующих для классификации риманову геометрию, методы глубокого обучения и различные варианты предобработки и кластеризации электроэнцефалографических сигналов, например общего пространственного фильтра. Среди прочих подходов предобработка электроэнцефалографических сигналов с применением общего пространственного фильтра часто используется как в офлайн, так и в онлайн режимах. Согласно исследованиям последних лет сочетание общего пространственного фильтра, линейного дискриминантного анализа, метода опорных векторов и нейронной сети с обратным распространением ошибки позволило достигнуть 91% точности при двухклассовой классификации с обратной связью в виде управления экзоскелетом. Исследований по использованию римановой геометрии в условиях онлайн очень мало, и на данный момент наилучшая точность при двухклассовой классификации составляет 69,3%. При этом в офлайн тестировании средний процент классификации в рассмотренных статьях для подходов с применением общего пространственного фильтра – 77,5±5,8%, сетей глубокого обучения – 81,7±4,7%, римановой геометрии – 90,2±6,6%. За счет нелинейных преобразований методы, основанные на римановой геометрии, а также на применении глубоких нейронных сетей сложной архитектуры, обеспечивают большую точность и способность к извлечению полезной информации из сигнала по сравнению с линейным преобразованием общего пространственного фильтра. Однако в условиях реального времени важна не только точность, но и минимальная временная задержка. Здесь преимущество может быть за подходами с использованием преобразования общего пространственного фильтра и римановой геометрии с временной задержкой менее 500 мс.

Бесплатно

Модель информационного взаимодействия элементов многоуровневой системы цифровых двойников

Модель информационного взаимодействия элементов многоуровневой системы цифровых двойников

Гульнара Равилевна Воробьева, Андрей Владимирович Воробьев

Статья

Одной из значимых проблем исследования процессов и явлений в окружающей среде является характерная для технических средств их регистрации пространственно-временная анизотропия. Причиной тому является зачастую крайне неравномерное распределение средств мониторинга по земной поверхности, а также многочисленные выбросы и пропуски в данных, обусловленные как несовершенством используемого оборудования, так и человеческим фактором. Одним из вариантов решения проблемы является применение многоуровневой системы цифровых двойников, базирующихся на соответствующих отраслевых моделях и пополняемой базе архивных данных, что в совокупности с физическими прототипами технических систем обеспечивает высокую плотность покрытия земной поверхности и возможность восстановления соответствующих данных. Вместе с тем нерешенным по-прежнему остается вопрос организации информационного взаимодействия между уровнями системы цифровых двойников, что в значительной степени усугубляется постоянно растущим объемом данных и их неоднородным характером. В работе предлагается организация информационного взаимодействия в системе цифровых двойников на основе формализованного механизма пакетирования пространственно-временной информации, при котором идентификация источников данных выполняется посредством иерархической системы бинарной токенизации. На примере технических систем мониторинга параметров геомагнитного поля и его вариаций рассматриваются особенности практической реализации такого подхода, отличительной особенностью которого является комбинирование традиционной клиент-серверной и инновационной бессерверной архитектур, для реализации высоконагруженного реактивного веб-приложения для работы с анализируемыми данными. Результаты проведенных вычислительных экспериментов подтвердили эффективность предложенных решений, выраженной как в повышении реактивности клиент-ориентированных приложений, так и в увеличении вычислительной скорости формирования и заполнения информационных хранилищ, агрегирующих информацию из распределенных гетерогенных источников.

Бесплатно

Модель машинного обучения для определения оптимальной стратегии в онлайн-аукционе

Модель машинного обучения для определения оптимальной стратегии в онлайн-аукционе

Анна Антоновна Ивашко, Георгий Романович Сафонов

Статья

В работе рассмотрено применение модели машинного обучения для определения оптимальной стратегии пользователя для победы в аукционе на покупку товара/услуги с использованием задачи наилучшего выбора. Применение модели наилучшего выбора позволяет участникам аукциона определить стратегию, которая минимизирует ожидаемую стоимость товара/услуги на основе функции распределения его цен. На практике наиболее часто цены на товар, услугу или ресурс имеют распределение, близкое к нормальному или к смеси нормальных распределений. Возникают задачи определения числа компонент смеси нормальных распределений и определения ее параметров. Одним из распространенных методов для определения числа компонент смеси распределений является BIC критерий. Оценить неизвестные параметры смеси нормальных распределений при фиксированном числе компонент можно с помощью EM-алгоритма, однако временные затраты на оценку параметров данным методом возрастают как при увеличении объёма выборки, так и при увеличении числа рассматриваемых компонент смеси. Разработана классификационная модель машинного обучения на основе сверточной нейронной сети для автоматизации и ускорения процесса определения числа компонент смеси нормальных распределений и оценки ее параметров. Приведены результаты тренировки и тестирования модели машинного обучения. Проведено сравнение применения разработанной модели с другими алгоритмами, не использующими нейронные сети. Результаты показывают, что предложенная модель позволяет эффективно определить наиболее подходящее число компонент для смеси нормальных распределений и уменьшает скорость вычисления параметров распределения при применении EM-алгоритма. Модель машинного обучения может быть применена в различных областях, например, в финансовом анализе или для определения оптимальной стратегии в аукционе на аренду вычислительного ресурса.

Бесплатно

Мониторинг надежности пользовательских вычислительных устройств в режиме реального времени: систематическое отображение

Мониторинг надежности пользовательских вычислительных устройств в режиме реального времени: систематическое отображение

Марио Хосе Диван, Дмитрий Александрович Щемелинин, Маркос Карранса, Цезарь Игнасио Мартинес-Спессот, Михаил Викторович Буйневич

Статья

Данный исследовательский обзор сосредоточен на мониторинге надежности вычислительных систем в режиме реального времени на стороне пользователя. В условиях гетерогенной и распределенной вычислительной среды, где отсутствует централизованный контроль, исследуется использование моделей искусственного интеллекта для поддержки процессов принятия решений в мониторинге надежности системы. Методология исследования основана на систематическом отображении предыдущих исследований, опубликованных в научных базах данных IEEE и Scopus. Анализ проведен на основе 50 научных статей, опубликованных с 2013 по 2022 годы, показал растущий научный интерес к данной области. Основное применение исследуемого метода связано с сетевыми технологиями и здравоохранением. Данный метод нацелен на интеграцию сети медицинских сенсоров и управляющих данных с пользовательскими вычислительными устройствами. Однако этот метод также применяется в промышленном и экологическом мониторинге. Выводы исследования показывают, что мониторинг надежности пользовательских вычислительных устройств в режиме реального времени находится на начальной стадии развития. Он не имеет стандартов, но за последние два года приобрел значительное значение и интерес. Большинство исследуемых статей сосредоточены на методах сбора данных с использованием уведомлений для поддержки централизованных стратегий принятия решений. Однако, существует множество возможностей для дальнейшего развития данного метода, таких как совместимость данных, федеративные и совместные модели принятия решений, формализация экспериментального дизайна, суверенитет данных, систематизация базы данных для использования предыдущих знаний и опыта, стратегии калибровки и повторной корректировки для источников данных.

Бесплатно

Нечетко-логические методы в задаче детектирования границ объектов

Нечетко-логические методы в задаче детектирования границ объектов

Максим Владимирович Бобырь, Александр Евгеньевич Архипов, Сергей Викторович Горбачев, Цзиньдe Цао, Сиддхартха Бхаттачарья

Статья

Рассматривается задача уменьшения вычислительной сложности методов выделения контуров на изображениях. Решение поставленной задачи достигается модификацией детектора Канни двумя нечетко-логическими методами, позволяющими сократить число проходов по исходному изображению: в-первом случае, путем исключения двух проходов, связанных с определением наличия соседства претендующего на границу пикселя со смежными в рамке размером 3´3, а во-втором случае, исключением операции определения угла направления градиента путем формирования данной величины комбинацией нечетких правил. Целью работы является уменьшение времени детектирования границ объектов на фото- видео-изображениях, за счет уменьшения вычислительной сложности применяемых методов. Интеллектуализация процесса детектирования границ осуществляется частичным повтором вычислительных операций, используемых в детекторе Канни, с дальнейшей заменой наиболее сложных вычислительных процедур. В предлагаемых методах после определения величины градиента и угла его направления осуществляется фаззификация восьми входных переменных, в качестве которых используется разность градиентов между центральной и смежными ячейками в рамке размером 3´3. Затем строится база нечетких правил. В первом методе в зависимости от угла направления градиента используются четыре нечетких правила и исключается один проход. Во втором методе шестнадцать нечетких правил сами задают угол направления градиента, при этом исключается два прохода вдоль изображения. Разность градиентов между центральной ячейкой и смежными ячейками позволяет учитывать форму распределения градиента. Затем на основе метода центра тяжести осуществляется дефаззификация результирующей переменной. Дальнейшее использование нечетких a-срезов позволяет осуществить бинаризацию результирующего изображения с выделением на нем границ объектов. Для оценки вычислительной скорости работы предложенных нечетких методов детектирования границ в среде Microsoft Visual Studio было разработано программное обеспечение. Представленные экспериментальные результаты показали, что уровень шума зависит от величины a-среза и параметров меток трапециевидных функций принадлежности. Ограничением двух методов является использование кусочно-линейных функций принадлежности. Экспериментальные исследования работоспособности предложенных методов детектирования контуров показали, что время первого нечеткого метода на 18% быстрее по сравнению с детектором Канни и на 2 % по отношению ко второму нечеткому методу. Однако при визуальной оценке установлено, что второй нечеткий метод лучше определяет границы объектов.

Бесплатно

Открытие чёрного ящика: Извлечение семантических факторов Осгуда из языковой модели word2vec

Открытие чёрного ящика: Извлечение семантических факторов Осгуда из языковой модели word2vec

Илья Алексеевич Суров

Статья

Современные модели искусственного интеллекта развиваются в парадигме чёрного ящика, когда значима только информация на входе и выходе системы, тогда как внутренние представления интерпретации не имеют. Такие модели не обладают качествами объяснимости и прозрачности, необходимыми во многих задачах. Статья направлена на решение данной проблемы путём нахождения семантических факторов Ч. Осгуда в базовой модели машинного обученния word2vec, представляющей слова естественного языка в виде 300-мерных неинтерпретируемых векторов. Искомые факторы определяются на основе восьми семантических прототипов, составленных из отдельных слов. Ось оценки в пространстве word2vec находится как разность между положительным и отрицательным прототипами. Оси силы и активности находятся на основе шести процессно-семантических прототипов (восприятие, анализ, планирование, действие, прогресс, оценка), представляющих фазы обобщённого кругового процесса в данной плоскости. Направления всех трёх осей в пространстве word2vec найдены в простой аналитической форме, не требующей дополнительного обучения. Как и ожидается для независимых семантических факторов, полученные направления близки к попарной ортогональности. Значения семантических факторов для любого объекта word2vec находятся с помощью простой проективной операции на найденные направления. В соответствии с требованиями к объяснимому ИИ, представленный результат открывает возможность для интерпретации содержимого алгоритмов типа "чёрный ящик'' в естественных эмоционально-смысловых категориях. В обратную сторону, разработанный подход позволяет использовать модели машинного обучения в качестве источника данных для когнитивно-поведенческого моделирования.

Бесплатно

Журнал