Искусственный интеллект, инженерия данных и знаний. Рубрика в журнале - Информатика и автоматизация (Труды СПИИРАН)
Машинное обучение в задачах base-calling для методов секвенирования нового поколения
Статья
Развитие технологий секвенирования следующего поколения (NGS) внесло существенный вклад в тенденции снижения затрат и получения массивных данных секвенирования. В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс (АПК) для расшифровки последовательности нуклеиновых кислот методом массового параллельного секвенирования (Нанофор СПС). Алгоритмы обработки изображений, входящие в состав АПК, играют существенную роль в решении задач расшифровки генома. Финальной частью такого предварительного анализа сырых данных является процесс base-calling. Base-calling — это процесс определения нуклеотидного основания, которое генерирует соответствующее значение интенсивности в каналах флуоресценции для различных длин волн на кадрах изображения проточной ячейки для различных циклов секвенирования методом синтеза. Приведен обширный анализ различных подходов к решению задач base-calling и сводка распространенных процедур, доступных для платформы Illumina. Рассмотрены различные химические процессы, включенные в технологию секвенирования методом синтеза, вызывающие смещения в значениях регистрируемых интенсивностей, включая эффекты фазирование / префазирование (phasing/prephasing), затухания сигнала (signal decay) и перекрестные помехи (cross-talk). Определена обобщённая модель, в рамках которой рассматриваются возможные реализации. Рассмотрены возможные подходы машинного обучения (machine learning) для создания и оценки моделей, реализующих этап обработки base-calling. Подходы ML принимают различные формы, включая обучение без учителя (unsupervised), обучение с ча-стичным привлечением учителя (semi-supervised), обучение с учителем (supervised). В работе показана возможность применения различных алгоритмов машинного обучения на основе платформы Scikit-learn. Отдельной важной задачей является оптимальное выделение признаков, выделенных в обнаруженных кластерах на проточной ячейке для машинного обучения. Наконец, на ряде данных секвенирования для приборов MiSeq Illumina и Нанофор СПС показана перспективность метода машинного обучения для решения задачи base-calling.
Бесплатно
Метод векторизации спутниковых снимков на основе их разложения по топологическим особенностям
Статья
Получение из растрового изображения объектов в векторном виде необходимо во многих сферах. Существующие методы векторизации спутниковых снимков не обеспечивают нужной точности автоматизации. В данной области требуется применять ручной труд, но объём поступающей информации зачастую превышает скорость обработки. Поэтому необходимы новые подходы для решения подобного рода задач. В статье предложен метод векторизации объектов на снимках с использованием разложения изображения на топологические особенности, который разбивает изображение на отдельные связанные структуры и при дальнейшей работе опирается уже на них. В результате уже на этом этапе изображение разбивается на древовидную структуру. Данный метод уникален по своему образу работы и в корне отличается от традиционных способов векторизации снимков. Большинство методов работает с помощью пороговой бинаризации, и основной задачей для них становится подбор порогового коэффициента. Главной проблемой в таком случае становится ситуация, когда на изображении имеется несколько объектов, для которых необходим разный порог. Метод отходит от непосредственной работы с яркостной характеристикой в сторону анализа топологической структуры каждого объекта. Предлагаемый метод имеет корректное математическое обоснование, в основе которого лежит алгебраическая топология. На основе метода разработана геоинформационная технология для автоматической векторизации растровых снимков с целью поиска находящихся на нем объектов. Тестирование проводилось на спутниковых снимках с разных масштабов. Разработанный метод сравнивался со специальным инструментом для векторизации R2V и превзошел его по средней точности. Средний процент у автоматической векторизации предложенного метода составил 81%, а у полуавтоматического векторизующего модуля R2V – 73%.
Бесплатно
Статья
Актуальность исследования определяется важностью и сложностью выполнения оперативных обобщений постоянно возрастающего массива пользовательских сообщений в социальных сетях. Предлагается уменьшить сложность решаемой задачи за счет использования роботизированных алгоритмов и их автоматизированной интеллектуальной фокусировки на целевые платформы, доступность данных и их объемы. Рассматривается способность больших языковых моделей (LLMs) генерировать высококачественные, связные и контекстно-зависимые аннотации (рефераты), подходящие для динамической природы неструктурированных, «зашумленных» данных социальных сетей. Представлены особенности технологии RAG LLM при реферировании публикаций социальных сетей. Основным недостатком языковых моделей является нестабильность и сложность прослеживания результатов для подтверждения фактической точности. Авторами предложен гибридный метод для обобщения сообщений в социальных сетях за определенный период времени. Метод заключается в комплексном и вариативном сочетании классических способов извлечений данных из их хранилищ, а также реферативных и генеративных возможностей больших языковых моделей. Большие языковые модели использованы для векторизации анализируемых данных. Применение алгоритмов кластеризации к полученным векторным представлениям позволило повысить стабильность и качество результатов. В рамках технологии RAG возможности больших языковых моделей расширены средствами интеллектуального поиска в используемой для хранения исходных данных базе MongoDB. В работе представлены три конвейера, каждый из которых является вариантом реализации метода и обладает преимуществами и недостатками в различных условиях применения. Приведены используемые для оценки конвейеров метрики и произведен сравнительный анализ. В целом, метод позволяет уменьшить конфабуляции большой языковой модели и получать обобщения публикаций за разные временные периоды в режиме реального времени. Предложенный метод применяется на практике в разработанной авторами системе мониторинга открытых данных социальных медиа.
Бесплатно
Статья
В стремительно развивающейся цифровой эпохе интерфейсы человеко-машинного взаимодействия непрерывно совершенствуется. Традиционные методы взаимодействия с компьютером, такие как мышь и клавиатура, дополняются и даже заменяются более интуитивными способами, которые включают технологии отслеживания глаз. Обычные методы отслеживания глаз используют камеры, которые отслеживают направление взгляда, но имеют свои ограничения. Альтернативным и многообещающим подходом к отслеживанию глаз является использование электроэнцефалографии, техники измерения активности мозга. Исторически ЭЭГ была ограничена в основном лабораторными условиями. Однако мобильные и доступные устройства для ЭЭГ появляются на рынке, предлагая более универсальное и эффективное средство для регистрации биопотенциалов. В данной статье представлен метод локализации взгляда с использованием электроэнцефалографии, полученной с помощью мобильного регистратора ЭЭГ в виде носимой головной повязки (компании BrainBit). Это исследование направлено на декодирование нейрональных паттернов, связанных с разными направлениями взгляда, с использованием продвинутых методов машинного обучения, в частности, нейронных сетей. Поиск паттернов выполняется как с использованием данных, полученных с помощью носимых очков с камерой для отслеживания глаз, так и с использованием неразмеченных данных. Полученные в исследовании результаты демонстрируют наличие зависимости между движением глаз и ЭЭГ, которая может быть описана и распознана с помощью предсказательной модели. Данная интеграция мобильной технологии ЭЭГ с методами отслеживания глаз предлагает портативное и удобное решение, которое может быть применено в различных областях, включающих медицинские исследования и разработку более интуитивных компьютерных интерфейсов.
Бесплатно
Статья
В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для решения этой проблемы в статье вводится новый метод на основе автоматического машинного перевода русскоязычных текстов на английский язык. Частичный перевод предполагает перевод отдельных лексем, не включенных в русскоязычные тональные словари, тогда как полный перевод подразумевает перевод всего текста целиком. Переведенный текст анализируется с использованием различных англоязычных тональных словарей. Экспериментальные исследования для решения задачи распознавания сентимента и эмоций были проведены на текстовых транскрипциях многомодального русскоязычного корпуса RAMAS, извлеченных из аудиоданных экспертным путем и автоматически с использованием системы распознавания речи. В результате применения методов машинного перевода достигается значение взвешенной F-меры распознавания семи классов эмоций 31,12 % и 23,74 %, и трех классов сентимента 75,37 % и 71,60 % для экспертных и автоматических транскрипций русскоязычной речи корпуса RAMAS, соответственно. Также в ходе экспериментов было выявлено, что использование статистических векторов в качестве метода преобразования текстовых данных позволяет достичь значение показателя взвешенной F-меры на 1-5 % выше по сравнению с использованием конкатенированного (статистического и тонального) вектора. Таким образом, эксперименты показывают, что объединение всех англоязычных тональных словарей позволяет повысить точность распознавания сентимента и эмоций в текстовых данных. В статье также исследуется корреляция между длиной вектора текстовых данных и его репрезентативностью. По результатам экспериментов можно сделать вывод, что использование лемматизации для нормализации слов текстовых транскрипций речи позволяет достичь большей точности распознавания сентимента по сравнению со стеммингом. Использование предложенных методов с полным и частичным машинным переводом позволяет повысить точность распознавания сентимента и эмоций на 0,65–9,76 % по показателю взвешенной F-меры по сравнению с базовым методом распознавания сентимента и эмоций.
Бесплатно
Статья
В работе рассматривается проблема получения наилучшей альтернативы с помощью методов принятия решений, основанных на опыте специалиста и математических расчетов. Для решения данной проблемы подходит групповое принятие решений, однако оно может привести к выбору нескольких наилучших альтернатив (мультивариантности результата). Учет компетентности позволит отдать приоритет решению более компетентных участников и устранить возникновение нескольких наилучших альтернатив в процессе группового принятия решений. Сформулирована задача определения коэффициентов компетентности для участников группового принятия решений, которые обеспечивают выбор наилучшей альтернативы при мультивариантности результата. Разработан метод решения поставленной задачи, который включает в себя дискретизацию диапазона изменения входных переменных и уточнение в нем значений коэффициентов компетентности участников группового принятия решений. Уточнение выполняется с использованием либо мажоритарного принципа, либо с помощью лица, принимающего решение. Последующее вычисление коэффициентов компетентности для участников группового принятия решений осуществляется при помощи локальной линейной интерполяции уточненного коэффициента компетентности в окружающих точках из дискретизированного диапазона. Использование предложенного метода решения поставленной задачи рассмотрено на примере группового принятия решений по основным разновидностям мажоритарного принципа для выбора варианта технологического процесса нанесения гальванического покрытия. В результатах показано, что предложенный метод расчета коэффициентов компетентности участников группового принятия решений через локальную линейную интерполяцию является наиболее эффективным для выбора наилучшей альтернативы при мультивариантности результата по мажоритарному принципу относительного большинства.
Бесплатно
Статья
В статье рассматривается задача формирования цифровой тени процесса перемещения человека. Проведен анализ предметной области, который показал необходимость формализации процесса создания цифровых теней для имитации движений человека в виртуальном пространстве, тестировании программно-аппаратных комплексов, функционирующих на основе действий человека, а также в различных системах опорно-двигательной реабилитации. Выявлено, что среди существующих подходов к захвату движений человека нельзя выделить универсальный и стабильно работающий при различных условиях внешней среды. Разработан метод формирования цифровой тени на основе комбинирования и синхронизации данных из трех систем захвата движений (трекеры виртуальной реальности, костюм motion capture и камеры с использованием технологий компьютерного зрения). Объединение перечисленных систем позволяет получить комплексную оценку положения и состояния человека независимо от условий внешней среды (электромагнитные помехи, освещенность). Для реализации предложенного метода проведена формализация цифровой тени процесса перемещения человека, включающая описание механизмов сбора и обработки данных от различных систем захвата движений, а также этапы объединения, фильтрации и синхронизации данных. Научная новизна метода заключается в формализации процесса сбора данных о перемещении человека, объединении и синхронизации аппаратного обеспечения используемых систем захвата движений для создания цифровых теней процесса перемещения человека. Полученные теоретические результаты будут использоваться в качестве основы для программной абстракции цифровой тени в информационных системах для решения задач тестирования, имитации человека и моделирования его реакции на внешние раздражители за счет обобщения собранных массивов данных о его перемещении.
Бесплатно
Методика идентификации текстов, сгенерированных большими языковыми моделями
Статья
В статье представлена методика идентификации русскоязычных текстов, сгенерированных большими языковыми моделями (LLM). Методика разработана с фокусом на короткие сообщения длиной от 100 до 200 символов. Актуальность работы обусловлена широким распространением генеративных моделей, таких как GPT-3.5, GPT-4o, LLaMA, GigaChat, DeepSeek, Yandex GPT. Методика основана на ансамбле моделей машинного обучения, также используются признаки трех уровней: лингвистические (структура, пунктуация, морфология, лексическое разнообразие), статистические (энтропия, перплексия, частотность n-грамм), семантические (эмбеддинги RuBERT). В качестве базовых моделей применяются LightGBM, BiLSTM и предобученная трансформерная модель RuRoBERTa, объединенные стеккингом через логистическую регрессию. Выбор гибридного ансамблевого подхода обусловлен стремлением учесть признаки на разных уровнях иерархии текста и обеспечить надежность классификации в условиях разных тематик генерируемых текстов, различных версий и видов языковых моделей. Применение ансамбля является преимуществом при анализе коротких текстов, поскольку LightGBM, опирающаяся на усредненные показатели, менее чувствительна к длине (метрика перплексии уже усреднена по всему тексту), тогда как BiLSTM и RoBERTa, способны выявлять локальные признаки LLM-текста, а не только глобальные. Набор данных естественных текстов включает более 2,8 млн пользовательских комментариев из социальной сети «ВКонтакте». Набор данных LLM-текстов содержит 700 тыс. текстов, сгенерированных семью актуальными большими языковыми моделями. При проведении генерации текстов применялись тематическое моделирование (LDA) и ролевая генерация с использованием промпт-инжиниринга. Проведена оценка методики на открытых датасетах русскоязычных LLM-текстов. Результаты экспериментов показали точность до 0,95 в задаче бинарной классификации («Человек–LLM») и до 0,89 в многоклассовой задаче определения модели-генератора. Методика демонстрирует устойчивость к разнообразию источников, стилей и версий LLM.
Бесплатно
Методология построения эталонного теста для оценки работы LLM с числительными
Статья
В статье представлена методология разработки эталонного теста для оценки навыков числового мышления в больших языковых моделях (Large Language Models, LLM). Под числовым мышлением в контексте LLM понимается способность модели корректно интерпретировать, обрабатывать и использовать числовую информацию в тексте – включая понимание значений чисел, их соотношений, выполнение арифметических операций, а также корректную генерацию числительных в ответах. Предложенная методология основана на декомпозиции прикладных задач и позволяет оценивать отдельные аспекты числового мышления на примере задач с числительными. Особое внимание уделяется способу представления чисел в текстовых инструкциях к LLM, поскольку это напрямую влияет на качество итогового ответа. Необходимость точной оценки числового мышления LLM обусловлена тем, что эта способность критически важна для широкого спектра прикладных задач работы с текстами, в том числе для автоматизированного составления кратких изложений, генерации аналитических отчётов, извлечения и интерпретации количественных данных, а также для диалоговых систем, работающих с финансовой, научной или технической информацией. На основе анализа современных подходов к оценке LLM сформулированы основные принципы построения эталонных тестов с упором на универсальность и применимость в реальных сценариях. В соответствии с предложенной методологией разработан эталонный тест MUE (Math Understanding Evaluation), включающий пять наборов тестовых заданий, каждый из которых предназначен для оценки отдельного аспекта числового мышления LLM. Проведена сравнительная оценка качества популярных LLM, определены лидеры, а также выявлены сильные и слабые стороны их числового мышления. Полученные результаты могут использоваться разработчиками LLM для улучшения архитектур и стратегий обучения, а также конечными пользователями и интеграторами для выбора оптимальной модели в прикладных проектах.
Бесплатно
Методы и модели извлечения знаний из медицинских документов
Статья
В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.
Бесплатно
Методы классификации ЭЭГ-паттернов воображаемых движений
Статья
Рассматриваются наиболее перспективные методы классификации электроэнцефалографических сигналов при разработке неинвазивных интерфейсов мозг–компьютер и теоретических подходов для успешной классификации электроэнцефалографических паттернов. Приводится обзор работ, использующих для классификации риманову геометрию, методы глубокого обучения и различные варианты предобработки и кластеризации электроэнцефалографических сигналов, например общего пространственного фильтра. Среди прочих подходов предобработка электроэнцефалографических сигналов с применением общего пространственного фильтра часто используется как в офлайн, так и в онлайн режимах. Согласно исследованиям последних лет сочетание общего пространственного фильтра, линейного дискриминантного анализа, метода опорных векторов и нейронной сети с обратным распространением ошибки позволило достигнуть 91% точности при двухклассовой классификации с обратной связью в виде управления экзоскелетом. Исследований по использованию римановой геометрии в условиях онлайн очень мало, и на данный момент наилучшая точность при двухклассовой классификации составляет 69,3%. При этом в офлайн тестировании средний процент классификации в рассмотренных статьях для подходов с применением общего пространственного фильтра – 77,5±5,8%, сетей глубокого обучения – 81,7±4,7%, римановой геометрии – 90,2±6,6%. За счет нелинейных преобразований методы, основанные на римановой геометрии, а также на применении глубоких нейронных сетей сложной архитектуры, обеспечивают большую точность и способность к извлечению полезной информации из сигнала по сравнению с линейным преобразованием общего пространственного фильтра. Однако в условиях реального времени важна не только точность, но и минимальная временная задержка. Здесь преимущество может быть за подходами с использованием преобразования общего пространственного фильтра и римановой геометрии с временной задержкой менее 500 мс.
Бесплатно
Модель информационного взаимодействия элементов многоуровневой системы цифровых двойников
Статья
Одной из значимых проблем исследования процессов и явлений в окружающей среде является характерная для технических средств их регистрации пространственно-временная анизотропия. Причиной тому является зачастую крайне неравномерное распределение средств мониторинга по земной поверхности, а также многочисленные выбросы и пропуски в данных, обусловленные как несовершенством используемого оборудования, так и человеческим фактором. Одним из вариантов решения проблемы является применение многоуровневой системы цифровых двойников, базирующихся на соответствующих отраслевых моделях и пополняемой базе архивных данных, что в совокупности с физическими прототипами технических систем обеспечивает высокую плотность покрытия земной поверхности и возможность восстановления соответствующих данных. Вместе с тем нерешенным по-прежнему остается вопрос организации информационного взаимодействия между уровнями системы цифровых двойников, что в значительной степени усугубляется постоянно растущим объемом данных и их неоднородным характером. В работе предлагается организация информационного взаимодействия в системе цифровых двойников на основе формализованного механизма пакетирования пространственно-временной информации, при котором идентификация источников данных выполняется посредством иерархической системы бинарной токенизации. На примере технических систем мониторинга параметров геомагнитного поля и его вариаций рассматриваются особенности практической реализации такого подхода, отличительной особенностью которого является комбинирование традиционной клиент-серверной и инновационной бессерверной архитектур, для реализации высоконагруженного реактивного веб-приложения для работы с анализируемыми данными. Результаты проведенных вычислительных экспериментов подтвердили эффективность предложенных решений, выраженной как в повышении реактивности клиент-ориентированных приложений, так и в увеличении вычислительной скорости формирования и заполнения информационных хранилищ, агрегирующих информацию из распределенных гетерогенных источников.
Бесплатно
Модель машинного обучения для определения оптимальной стратегии в онлайн-аукционе
Статья
В работе рассмотрено применение модели машинного обучения для определения оптимальной стратегии пользователя для победы в аукционе на покупку товара/услуги с использованием задачи наилучшего выбора. Применение модели наилучшего выбора позволяет участникам аукциона определить стратегию, которая минимизирует ожидаемую стоимость товара/услуги на основе функции распределения его цен. На практике наиболее часто цены на товар, услугу или ресурс имеют распределение, близкое к нормальному или к смеси нормальных распределений. Возникают задачи определения числа компонент смеси нормальных распределений и определения ее параметров. Одним из распространенных методов для определения числа компонент смеси распределений является BIC критерий. Оценить неизвестные параметры смеси нормальных распределений при фиксированном числе компонент можно с помощью EM-алгоритма, однако временные затраты на оценку параметров данным методом возрастают как при увеличении объёма выборки, так и при увеличении числа рассматриваемых компонент смеси. Разработана классификационная модель машинного обучения на основе сверточной нейронной сети для автоматизации и ускорения процесса определения числа компонент смеси нормальных распределений и оценки ее параметров. Приведены результаты тренировки и тестирования модели машинного обучения. Проведено сравнение применения разработанной модели с другими алгоритмами, не использующими нейронные сети. Результаты показывают, что предложенная модель позволяет эффективно определить наиболее подходящее число компонент для смеси нормальных распределений и уменьшает скорость вычисления параметров распределения при применении EM-алгоритма. Модель машинного обучения может быть применена в различных областях, например, в финансовом анализе или для определения оптимальной стратегии в аукционе на аренду вычислительного ресурса.
Бесплатно
Статья
Данный исследовательский обзор сосредоточен на мониторинге надежности вычислительных систем в режиме реального времени на стороне пользователя. В условиях гетерогенной и распределенной вычислительной среды, где отсутствует централизованный контроль, исследуется использование моделей искусственного интеллекта для поддержки процессов принятия решений в мониторинге надежности системы. Методология исследования основана на систематическом отображении предыдущих исследований, опубликованных в научных базах данных IEEE и Scopus. Анализ проведен на основе 50 научных статей, опубликованных с 2013 по 2022 годы, показал растущий научный интерес к данной области. Основное применение исследуемого метода связано с сетевыми технологиями и здравоохранением. Данный метод нацелен на интеграцию сети медицинских сенсоров и управляющих данных с пользовательскими вычислительными устройствами. Однако этот метод также применяется в промышленном и экологическом мониторинге. Выводы исследования показывают, что мониторинг надежности пользовательских вычислительных устройств в режиме реального времени находится на начальной стадии развития. Он не имеет стандартов, но за последние два года приобрел значительное значение и интерес. Большинство исследуемых статей сосредоточены на методах сбора данных с использованием уведомлений для поддержки централизованных стратегий принятия решений. Однако, существует множество возможностей для дальнейшего развития данного метода, таких как совместимость данных, федеративные и совместные модели принятия решений, формализация экспериментального дизайна, суверенитет данных, систематизация базы данных для использования предыдущих знаний и опыта, стратегии калибровки и повторной корректировки для источников данных.
Бесплатно
Нечетко-логические методы в задаче детектирования границ объектов
Статья
Рассматривается задача уменьшения вычислительной сложности методов выделения контуров на изображениях. Решение поставленной задачи достигается модификацией детектора Канни двумя нечетко-логическими методами, позволяющими сократить число проходов по исходному изображению: в-первом случае, путем исключения двух проходов, связанных с определением наличия соседства претендующего на границу пикселя со смежными в рамке размером 3´3, а во-втором случае, исключением операции определения угла направления градиента путем формирования данной величины комбинацией нечетких правил. Целью работы является уменьшение времени детектирования границ объектов на фото- видео-изображениях, за счет уменьшения вычислительной сложности применяемых методов. Интеллектуализация процесса детектирования границ осуществляется частичным повтором вычислительных операций, используемых в детекторе Канни, с дальнейшей заменой наиболее сложных вычислительных процедур. В предлагаемых методах после определения величины градиента и угла его направления осуществляется фаззификация восьми входных переменных, в качестве которых используется разность градиентов между центральной и смежными ячейками в рамке размером 3´3. Затем строится база нечетких правил. В первом методе в зависимости от угла направления градиента используются четыре нечетких правила и исключается один проход. Во втором методе шестнадцать нечетких правил сами задают угол направления градиента, при этом исключается два прохода вдоль изображения. Разность градиентов между центральной ячейкой и смежными ячейками позволяет учитывать форму распределения градиента. Затем на основе метода центра тяжести осуществляется дефаззификация результирующей переменной. Дальнейшее использование нечетких a-срезов позволяет осуществить бинаризацию результирующего изображения с выделением на нем границ объектов. Для оценки вычислительной скорости работы предложенных нечетких методов детектирования границ в среде Microsoft Visual Studio было разработано программное обеспечение. Представленные экспериментальные результаты показали, что уровень шума зависит от величины a-среза и параметров меток трапециевидных функций принадлежности. Ограничением двух методов является использование кусочно-линейных функций принадлежности. Экспериментальные исследования работоспособности предложенных методов детектирования контуров показали, что время первого нечеткого метода на 18% быстрее по сравнению с детектором Канни и на 2 % по отношению ко второму нечеткому методу. Однако при визуальной оценке установлено, что второй нечеткий метод лучше определяет границы объектов.
Бесплатно
Статья
В нейронауке, нейроинженерии и биомедицинской инженерии электроэнцефалография (ЭЭГ) широко используется благодаря своей неинвазивности, высокому временному разрешению и доступности. Однако шум и физиологические артефакты, такие как сердечные, миогенные и глазные артефакты, часто искажают исходные данные ЭЭГ. Методы шумоподавления на основе глубокого обучения (DL) могут уменьшать или устранять эти артефакты, которые ухудшают ЭЭГ-сигнал. Несмотря на наличие этих методов, значительные артефакты всё ещё могут снижать эффективность анализа, что делает удаление шума основным требованием для точного анализа ЭЭГ. Кроме того, для эффективного удаления артефактов представлена оптимизированная иерархическая одномерная сверточная нейронная сеть (1D CNN). Для эффективного извлечения признаков иерархическая CNN сочетает в себе максимальное объединение, функцию активации ReLU и адаптивные сверточные окна. Для оптимизации параметров сети применяется алгоритм отжига кузнечика (AGA), что дополнительно улучшает устранение артефактов. Для обеспечения всестороннего исследования и сходимости к идеальным настройкам CNN, AGA сочетает точность тонкой настройки метода имитации отжига (SA) с глобальными исследовательскими возможностями алгоритма оптимизации кузнечика (GOA). Используя гибридный подход, сеть может более эффективно устранять артефакты на различных иерархических уровнях, что приводит к заметному улучшению чёткости сигнала и общей точности. Очищенные данные ЭЭГ представлены восстановленными элементами в последнем плотном слое иерархической одномерной CNN, использующей сигмоидальную функцию. Согласно экспериментальным результатам, предложенный метод достиг пикового отношения сигнала к шуму (PSNR) 29,5 дБ, средней абсолютной ошибки (MAE) 11,32, среднеквадратической ошибки (RMSE) 0,011 и коэффициента корреляции (CC) 0,93, что превосходит результаты предыдущих работ. Предложенный метод позволяет повысить точность удаления артефактов ЭЭГ, что является полезным дополнением к обработке биомедицинских сигналов и нейроинженерии.
Бесплатно
Статья
Одним из важнейших аспектов современных образовательных систем является определение вовлеченности учащихся, которое включает выявление того, насколько вовлечены, внимательны и активны учащиеся на занятиях в классе. Для преподавателей этот подход имеет важное значение, поскольку он дает представление об опыте обучения учащихся, позволяя адаптировать подходы в обучении и улучшать качество обучения. Традиционные методы оценки вовлеченности учащихся часто являются трудоемкими и субъективными. В этом исследовании предлагается новая система определения степени вовлеченности учащихся в реальном времени, которая использует сети пирамидальных признаков (FPN), улучшенные с помощью архитектуры Трансформера, с канально-пространственным вниманием (CSA), называемая BiusFPN_CSA. Предлагаемый подход автоматически анализирует модели вовлеченности учащихся, такие как поза тела, зрительный контакт и положение головы, из визуальных потоков данных путем интеграции передовых методов глубокого обучения и компьютерного зрения. За счет интеграции механизма внимания CSA с возможностями иерархического представления признаков FPN, модель может точно определять уровни вовлеченности учащихся, улавливая контекстную и пространственную информацию во входных данных. Кроме того, благодаря внедрению архитектуры Трансформера, модель достигает лучшей общей производительности за счет эффективного учета долгосрочных зависимостей и семантических связей во входных последовательностях. Оценка с использованием набора данных WACV показывает, что предлагаемая модель превосходит базовые методы с точки зрения точности. В частности, вариант FPN_CSA_Trans_EH предлагаемой модели превосходит FPN_CSA на 3,28% и 4,98% соответственно. Эти результаты подчеркивают эффективность структуры BiusFPN_CSA в определении вовлеченности учащихся в реальном времени, предлагая преподавателям ценный инструмент для повышения качества обучения, создания активной среды обучения и, в конечном итоге, улучшения результатов учащихся.
Бесплатно
Открытие чёрного ящика: Извлечение семантических факторов Осгуда из языковой модели word2vec
Статья
Современные модели искусственного интеллекта развиваются в парадигме чёрного ящика, когда значима только информация на входе и выходе системы, тогда как внутренние представления интерпретации не имеют. Такие модели не обладают качествами объяснимости и прозрачности, необходимыми во многих задачах. Статья направлена на решение данной проблемы путём нахождения семантических факторов Ч. Осгуда в базовой модели машинного обученния word2vec, представляющей слова естественного языка в виде 300-мерных неинтерпретируемых векторов. Искомые факторы определяются на основе восьми семантических прототипов, составленных из отдельных слов. Ось оценки в пространстве word2vec находится как разность между положительным и отрицательным прототипами. Оси силы и активности находятся на основе шести процессно-семантических прототипов (восприятие, анализ, планирование, действие, прогресс, оценка), представляющих фазы обобщённого кругового процесса в данной плоскости. Направления всех трёх осей в пространстве word2vec найдены в простой аналитической форме, не требующей дополнительного обучения. Как и ожидается для независимых семантических факторов, полученные направления близки к попарной ортогональности. Значения семантических факторов для любого объекта word2vec находятся с помощью простой проективной операции на найденные направления. В соответствии с требованиями к объяснимому ИИ, представленный результат открывает возможность для интерпретации содержимого алгоритмов типа "чёрный ящик'' в естественных эмоционально-смысловых категориях. В обратную сторону, разработанный подход позволяет использовать модели машинного обучения в качестве источника данных для когнитивно-поведенческого моделирования.
Бесплатно
Оценивание информативности признаков в наборах данных для проведения продлённой аутентификации
Статья
Продлённая аутентификация позволяет избавиться от недостатков, присущих статической аутентификации, например, идентификаторы могут быть потеряны или забыты, пользователь совершает только первоначальный вход в систему, что может быть опасно не только для областей, требующих обеспечения высокого уровня безопасности, но и для обычного офиса. Динамическая проверка пользователя во время всего сеанса работы может повысить безопасность системы, поскольку во время работы пользователь может подвергнуться воздействию со стороны злоумышленника (например, быть атакованным) или намеренно передать ему права. В таком случае оперировать машиной будет не пользователь, который выполнил первоначальный вход. Классификация пользователей во время работы системы позволит ограничить доступ к важным данным, которые могут быть получены злоумышленником. Во время исследования были изучены методы и наборы данных, использующихся для продлённой аутентификации. Затем был сделан выбор наборов данных, которые использовались в дальнейшем исследовании: данные о движении смартфона и смарт-часов (WISDM) и динамике активности мыши (Chao Shen’s, DFL, Balabit). Помочь улучшить результаты работы моделей при классификации может предварительный отбор признаков, например, через оценивание их информативности. Уменьшение размерности признаков позволяет снизить требования к устройствам, которые будут использоваться при их обработке, повысить объём перебора значений параметров классификаторов при одинаковых временных затратах, тем самым потенциально повысить долю правильных ответов при классификации за счёт более полного перебора параметров значений. Для оценивания информативности использовались метод Шеннона, а также алгоритмы, встроенные в программы для анализа данных и машинного обучения (WEKA: Machine Learning Software и RapidMiner). В ходе исследования были выполнены расчёты информативности каждого признака в выбранных для исследования наборах данных, затем с помощью RapidMiner были проведены эксперименты по классификации пользователей с последовательным уменьшением количества используемых при классификации признаков с шагом в 20%. В результате была сформирована таблица с рекомендуемыми наборами признаков для каждого набора данных, а также построены графики зависимостей точности и времени работы различных моделей от количества используемых при классификации признаков.
Бесплатно
Оценка влияния битности чисел с плавающей запятой на точность распознавания дикторов
Статья
В статье проводится анализ изменения точности распознавания личности по голосу при выделении разного количества бит на число с плавающей запятой (квантование) выходного тензора нейронной сети. Тензор характеризирует скрытое пространство нейронной сети, которое содержит скрытые признаки, используемые при решении задачи распознавания дикторов. Обычно, на каждое число выходного пространства выделяется тридцать два бита (выходной тензор, исследуемых методов содержит 512 чисел), поэтому для поддержки постоянно актуализируемой базы данных требуется большое количество памяти. Из-за этого, особый интерес представляет тип чисел с плавающей запятой – minifloat, позволяющий работать с численным представлениями, на которые выделяются восемь, шесть или четыре бита. Для обеспечения полноты результатов исследования, выбраны три нейросетевых решения, показывающие лучшие результаты распознавания на тестовой выборке: CAM++, WavLM, ReDimNet. Модели обладают уникальными архитектурными особенностями, что позволяет оценить изменение точности распознавания дикторов при уменьшении битности в зависимости от используемого типа архитектуры нейронной сети. Точность распознавания оценивается с помощью точки пересечения ошибок первого и второго рода. При проведении оценки точности распознавания используется англоязычный набор данных VoxCeleb-1, по характеристикам содержащихся аудиозаписей соответствует небольшой базе данных биометрической системы. Актуальность представленного материала обусловлена возрастающим количеством научных работ, которые предлагают использовать голос в качестве верификационного ключа. Поэтому, при работе с большим набором биометрических данных необходимо выделять большие объёмы памяти как на жёстких дисках, так и ОЗУ. Современные базы данных постоянно актуализируются и расширяются, что приводит к увеличению необходимых ресурсов на её поддержку. Одним из возможных методов решения может являться применение операции квантования к выходному тензору нейронной сети. Однако, преждевременное уменьшение количества выделяемых бит на число в выходном тензоре может привести к значительному ухудшению качества распознавания, относительно базовой версии сети. Основным направлением исследования является минимизация ресурсов для поддержки биометрической системы без дополнительного обучения нейронной сети.
Бесплатно