Искусственный интеллект, инженерия данных и знаний. Рубрика в журнале - Информатика и автоматизация (Труды СПИИРАН)
Статья
Описываемые в статье исследования направлены на развитие методов составления расписаний. Принципиальным недостатком существующих методов смешано- целочисленного линейного программирования в применении к рассматриваемым задачам является то, что они слишком требовательны к объемам оперативной памяти. Сложность же применения процедур локального поиска к подобным задачам высокой размерности состоит в разработке эффективного способа нахождения приемлемого первоначального приближения и определении функции перехода в соседнее состояние, которая бы позволила достаточно быстро достичь оптимума. В теории исследования операций добавление к задаче дополнительных условий может привести к принципиальному изменению используемой схемы решения задачи. Предлагаемые в статье методы реализованы в рамках парадигмы программирования в ограничениях, что позволяет более экономно с точки зрения оперативной памяти представлять зависимости предметной области, а также обеспечивает возможность поэтапного учета разнородных условий задачи без принципиального изменения схемы поиска решений. Существенная часть исследований посвящена использованию методов логического вывода на ограничениях для снижения размерности пространства поиска и ускорения процесса вычислений. Подход к составлению расписаний проиллюстрирован на задаче оптимизации планирования открытых горных работ, которую впервые предложено решать как задачу удовлетворения ограничений. Для нахождения первого допустимого решения предложен метод «жадного» поиска, результат применения которого затем может быть улучшен с помощью разработанного гибридного метода. Оба метода опираются на оригинальные процедуры вывода на ограничениях. Предложенный подход доказал свою эффективность для блочных моделей размерностью в десятки и сотни тысяч блоков.
Бесплатно
H-Detect: алгоритм раннего выявления гидроцефалии
Статья
Гидроцефалия - это заболевание центральной нервной системы, которое чаще всего поражает младенцев и детей ясельного возраста. Оно начинается с аномального накопления спинномозговой жидкости в желудочковой системе головного мозга. Следовательно, жизненно важной становится ранняя диагностика, которая может быть выполнена с помощью компьютерной томографии (КТ), одного из наиболее эффективных методов диагностики гидроцефалии (КТ), при котором становится очевидным увеличение желудочковой системы. Однако большинство оценок прогрессирования заболевания основаны на оценке рентгенолога и физических показателях, которые являются субъективными, отнимающими много времени и неточными. В этой статье разрабатывается автоматическое прогнозирование с использованием фреймворка H-detect для повышения точности прогнозирования гидроцефалии. В этой статье используется этап предварительной обработки для нормализации входного изображения и удаления нежелательных шумов, что может помочь легко извлечь ценные признаки. Выделение признаков осуществляется путем сегментации изображения на основе определения границ с использованием треугольных нечетких правил. Таким образом, выделяется точная информация о природе ликвора внутри мозга. Эти сегментированные изображения сохраняются и снова передаются алгоритму CatBoost. Обработка категориальных признаков позволяет ускорить обучение. При необходимости детектор переобучения останавливает обучение модели и, таким образом, эффективно прогнозирует гидроцефалию. Результаты демонстрируют, что новая стратегия H-detect превосходит традиционные подходы.
Бесплатно
Статья
Проблема обучения глубоких нейронных сетей на малых выборках особенно актуальна для медицинских задач. В работе рассматривается влияние попиксельной разметки значимых объектов на изображении, в дополнении к истинной метке класса, на качество решения задачи классификации. Для достижения лучших результатов классификации на малых выборках предлагается мультизадачная архитектура Unet-boosted classifier (UBC), обучаемая одновременно для решения задач классификации и семантической сегментации. В качестве исследуемого набора данных используются МРТ-снимки пациентов c доброкачественной глиомой и глиобластомой, взятые из открытого набора данных BraTS 2019. В качестве входа рассматривается один горизонтальный срез МРТ-изображения, содержащий глиому (всего 380 кадров в обучающей выборке), в качестве выхода – вероятность глиобластомы. В качестве базового решения используется ResNet34, обученный без аугментаций с функцией потерь на основе взаимной энтропии (CrossEntropyLoss). В качестве альтернативного решения используется UBC-ResNet34 – тот же ResNet34 усиленный декодером, построенным по принципу U-Net, и предсказывающим положение глиомы. В качестве дополнительной функции потерь используется сглаженный коэффициент Соренсена-Дайса (DiceLoss). Результаты на тестовой выборке: доля правильных ответов (accuracy) для базовой модели составила 0.71, для альтернативной – 0.81, коэффициент Дайса (Dice score) при этом составил 0.77. Таким образом, глубокую модель можно качественно обучить даже на небольшом наборе данных, используя предложенную архитектуру и добавив в разметку информацию о пораженных тканях в виде семантической маски. Предлагаемый подход потенциально может быть полезен и в любых других задачах классификации изображений с ограниченным набором данных.
Бесплатно
Статья
Устройства Интернета вещей играют важнейшую роль в современном мире во многих отношениях, поскольку они обеспечивают поддержку для зондирования окружающей среды, автоматизации и ответственного сохранения ресурсов. В «умном» мире повсеместное присутствие устройств Интернета вещей в повседневной жизни неизбежно. Широкое использование устройств Интернета вещей привлекает к себе любопытные взгляды злонамеренных хакеров. Несмотря на то, что существует несколько систем и протоколов безопасности, доступных для обычных беспроводных сетей, наблюдается необходимость в разработке современного механизма безопасности исключительно для сетевых сред Интернета вещей. Эта работа представляет улучшения безопасности сетей Интернета вещей. В ней собраны три специализированных способа для достижения более высоких показателей безопасности в сетевых средах Интернета вещей. Fast Fuzzy Anomaly Detector, Legacy Naïve Bayes Attack Classifiers и Variable Security Schemer of Rivest-Shamir-Adleman algorithm – это новые модули, представленные в этой работе, сокращенно ASORI. Уникальные преимущества встроенного механизма сертификации Интернета вещей и выбор динамической стратегии безопасности являются новшествами, представленными в данной работе. Модель ASORI была проверена с использованием промышленного стандартного симулятора сети OPNET для обеспечения улучшенной безопасности наряду с существенными улучшениями параметров производительности сети.
Бесплатно
Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec
Статья
В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.
Бесплатно
Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
Статья
В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.
Бесплатно
Статья
Автоматический синтаксический анализ предложения — одна из важных задач компьютерной лингвистики. В настоящее время для русского языка отсутствуют общедоступные и пригодные для практического применения анализаторы синтаксической структуры. Создание таких анализаторов «с нуля» требует составления корпуса деревьев, размеченного в соответствии с заданной формальной грамматикой, что представляет собой крайне трудоёмкую задачу. Однако, поскольку для русского языка существует несколько анализаторов синтаксических связей, представляется полезным использовать результаты их работы для анализа синтаксической структуры предложений. В настоящей работе предлагается алгоритм, позволяющий построить дерево синтаксических единиц русскоязычного предложения по данному дереву синтаксических связей. Алгоритм использует грамматику, сформулированную в соответствии с классическим справочником Д.Э. Розенталя. Приведены результаты экспериментов по оценке качества работы предложенного алгоритма на корпусе из 300 предложений на русском языке. 200 предложений были выбраны из вышеупомянутого справочника и 100 из открытого корпуса публицистических текстов OpenCorpora. В ходе экспериментов предложения подавались на вход анализаторов из состава библиотек Stanza, SpaCy и Natasha, после чего полученные деревья синтаксических связей обрабатывались предложенным алгоритмом. Полученные в результате обработки деревья синтаксических единиц сравнивались с размеченными вручную экспертами-филологами. Наилучшее качество было получено при использовании анализатора синтаксических связей из библиотеки Stanza: F1-мера построения синтаксических единиц составила 0.85, а точность определения членов предложения — 0.93, чего должно быть достаточно для решения многих практических задач в таких областях, как извлечение событий, информационный поиск, анализ тональности.
Бесплатно
Статья
Методы машинного обучения и цифровой обработки сигналов применяются в различных отраслях, в том числе при анализе и классификации сейсмических сигналов поверхностных источников. Разработанный алгоритм анализа типов волн позволяет автоматически идентифицировать и, соответственно, отделять приходящие сейсмические волны на основе их характеристик. Для выделения типов волн используется сейсмический измерительный комплекс, определяющий характеристики граничных волн поверхностных источников с использованием специальных молекулярно-электронных датчиков угловых и линейных колебаний. Представлены результаты работы алгоритма обработки данных, получаемых по методике сейсмических наблюдений, использующей спектральный анализ на основе вейвлета Морле. Также в работе описан алгоритм классификации источников сигнала, определения расстояния и азимута до пункта возбуждения поверхностных волн, рассмотрено использование статистических характеристик и MFCC (Мел-частотные кепстральные коэффициенты) параметров, а также их совместное применение. При этом в качестве статистических характеристик сигнала были использованы следующие: дисперсия, коэффициент эксцесса, энтропия и среднее значение, а в качестве метода машинного обучения был выбран градиентный бустинг; в качестве метода определения расстояния до источника сигнала применен метод машинного обучения на основе градиентного бустинга с применением статистических и MFCC параметров. Обучение проводилось на тестовых данных на основе выделенных особенных параметрах сигналов источников сейсмического возбуждения поверхностных волн. С практической точки зрения, новые методы сейсмических наблюдений и анализа граничных волн позволяют решить проблему обеспечения плотной расстановки датчиков в труднодоступных местах, устранить недостаток знаний в алгоритмах обработки данных сейсмических сенсоров угловых движений, выполнить классификацию и систематизацию источников, повысить точность прогнозирования, реализовать алгоритмы локации и сопровождения источников. Целью работы стало создание алгоритмов обработки сейсмических данных для классификации источников сигнала, определения расстояния и азимута до пункта возбуждения поверхностных волн.
Бесплатно
Алгоритмы первичного анализа локальных объектов флуоресценции в секвенаторе ДНК «Нанофор СПС»
Статья
В секвенаторе ДНК «Нанофор СПС», разработанном в Институте аналитического приборостроения РАН, реализован метод массового параллельного секвенирования для расшифровки последовательности нуклеиновых кислот. Этот метод позволяет определять последовательность нуклеотидов в ДНК или РНК, содержащих от нескольких сотен до сотен миллионов звеньев мономеров. Таким образом, имеется возможность получения подробной информации о геноме различных биологических объектов, в том числе человека, животных и растений. Важнейшей частью этого прибора является программное обеспечение, без которого невозможно решение задач по расшифровке генома. Выходными данными оптической детекции в секвенаторе являются набор изображений по четырем каналам, соответствующим типам нуклеотидов: A, C, G, T. С помощью специального программного обеспечения определяется положение молекулярных кластеров и их интенсивностные характеристики вместе с параметрами окружающего фона. В ходе создания программного обеспечения прибора были разработаны алгоритмы и программы обработки сигналов флуоресценции, рассмотренные в работе. Также, для отладки и тестирования рабочих программ созданы модели построения изображений, аналогичных реальным данным, получаемым в ходе работы секвенатора. Данные модели позволили получить значительный массив информации без запуска дорогостоящих экспериментов. За последние годы достигнуты значительные успехи в области машинного обучения, в том числе и в области биоинформатики, что привело к реализации наиболее распространенных моделей и возможности их применения для практических задач. Однако, если на этапе вторичного анализа биоинформационных данных эти методы широко зарекомендовали себя, то их потенциал для первичного анализа остается недостаточно раскрытым. В данной работе особое внимание уделяется разработке и внедрению методов машинного обучения для первичного анализа оптических изображений сигналов флуоресценции в реакционных ячейках. Описаны методы кластеризации и их апробация на моделях и на изображениях, полученных на приборе. Цель этой статьи – продемонстрировать возможности алгоритмов первичного анализа сигналов флуоресценции, получающихся в процессе секвенирования на приборе «Нанофор СПС». В работе описаны основные задачи анализа сигналов флуоресценции и сравниваются традиционные методы их решения с использованием технологий машинного обучения.
Бесплатно
Статья
В работе представлено применение алгоритма статистического анализа данных разновременной мультиспектральной аэрофотосъемки с целью выявления участков исторического антропогенного воздействия на природную среду. Исследуемый участок расположен на окраине поселка городского типа Знаменка (Знаменский район Тамбовской области) в лесостепной зоне с типичными черноземными почвами, где во второй половине XIX – начале XX вв. были расположены пашни. Признаком для выявления следов исторического антропогенного воздействия может быть растительность, возникшая в результате вторичной сукцессии на заброшенных участках. Отличительной особенностью такой растительности от окружающей природной среды является ее тип, возраст и плотность произрастания. Таким образом, задача обнаружения границ антропогенного воздействия по мультиспектральным изображениям сводится к задаче классификации растительности. Исходными данными являлись результаты разновременной мультиспектральной съемки в зеленом (Green), красном (Red), краевом красном (RedEdge) и ближнем инфракрасном (NIR) спектральных диапазонах. На первом этапе алгоритма предполагается вычисление текстурных признаков Харалика по данным мультиспектральной съемки, на втором этапе – уменьшение количества признаков методом главных компонент, на третьем – сегментация изображений на основе полученных признаков методом k-means. Эффективность предложенного алгоритма показана при сопоставлении результатов сегментации с эталонными данными исторических картографических материалов. Полученный результат сегментации отражает не только конфигурацию участков анотропогенно-преобразованной природной среды, но и особенности зарастания заброшенной пашни, поскольку исследование разновременных мультиспектральных снимков позволяет более полно охарактеризовать и учесть динамику наращивания фитомассы в разные периоды вегетации.
Бесплатно
Анализ и визуализация данных в задачах многокритериальной оптимизации проектных решений
Статья
Накопление данных о процессах управления проектами и типовых решениях сделало актуальными исследования, связанные с применением методов инженерии знаний для многокритериального поиска вариантов, которые задают оптимальные настройки параметров проектной среды. Цель: разработка методики поиска и визуализации групп проектов, которые могут быть оценены на основе концепции доминирования и интерпретироваться в терминах проектных переменных и показателей эффективности. Методы: обогащение выборки с сохранением неявной связи между проектными переменными и показателями эффективности осуществляется с помощью прогнозирующей нейросетевой модели. Для обнаружения фронта Парето в многомерном критериальном пространстве используется набор генетических алгоритмов. Онтология проектов определяется после кластеризации вариантов в пространстве решений и преобразования кластерной структуры в критериальное пространство. Автоматизация поиска в многомерном пространстве зоны наибольшей кривизны фронта Парето, определяющей равновесные проектные решения, их визуализация и интерпретация осуществляются с помощью плоского дерева решений. Результаты: плоское дерево строится при любой размерности критериального пространства и имеет структуру, которая имеет топологическое соответствие с проекциями разделяемых образов кластеров из многомерного пространства на плоскость. Для различных видов преобразований и корреляций между показателями эффективности и проектными переменными показано, что участки наибольшей кривизны фронта Парето определяются либо содержимым целого кластера, либо частью вариантов, представляющих “лучший” кластер. Если на плоском дереве к правому верхнему углу примыкает неразделенный прямоугольник кластера, то его представители в критериальном пространстве хорошо отделены от остальных кластеров и при максимизации показателей эффективности наиболее приближены к идеальной точке. Все представители такого кластера являются эффективными решениями. Если кластер-победитель содержит внутри дерева решений доминируемые варианты, то “лучший” кластер представляют оставшиеся варианты, которые задают оптимальные настройки проектных переменных. Практическая значимость: предложенная методика поиска и визуализации групп проектов может найти применение при выборе условий ресурсного и организационно-экономического моделирования проектной среды, обеспечивающих оптимизацию рисков, стоимостных, функциональных и временных критериев.
Бесплатно
Статья
В статье представлен аналитический обзор исследований в области аффективных вычислений. Это направление является составляющей искусственного интеллекта, и изучает методы, алгоритмы и системы для анализа аффективных состояний человека при его взаимодействии с другими людьми, компьютерными системами или роботами. В области интеллектуального анализа данных под аффектом подразумевается проявление психологических реакций на возбуждаемое событие, которое может протекать как в краткосрочном, так и в долгосрочном периоде, а также иметь различную интенсивность переживаний. Аффекты в рассматриваемой области разделены на 4 вида: аффективные эмоции, базовые эмоции, настроение и аффективные расстройства. Проявление аффективных состояний отражается в вербальных данных и невербальных характеристиках поведения: акустических и лингвистических характеристиках речи, мимике, жестах и позах человека. В обзоре приводится сравнительный анализ существующего информационного обеспечения для автоматического распознавания аффективных состояний человека на примере эмоций, сентимента, агрессии и депрессии. Немногочисленные русскоязычные аффективные базы данных пока существенно уступают по объему и качеству электронным ресурсам на других мировых языках, что обуславливает необходимость рассмотрения широкого спектра дополнительных подходов, методов и алгоритмов, применяемых в условиях ограниченного объема обучающих и тестовых данных, и ставит задачу разработки новых подходов к аугментации данных, переносу обучения моделей и адаптации иноязычных ресурсов. В статье приводится описание методов анализа одномодальной визуальной, акустической и лингвистической информации, а также многомодальных подходов к распознаванию аффективных состояний. Многомодальный подход к автоматическому анализу аффективных состояний позволяет повысить точность распознавания рассматриваемых явлений относительно одномодальных решений. В обзоре отмечена тенденция современных исследований, заключающаяся в том, что нейросетевые методы постепенно вытесняют классические детерминированные методы благодаря лучшему качеству распознавания состояний и оперативной обработке большого объема данных. В статье рассматриваются методы анализа аффективных состояний. Преимуществом использования многозадачных иерархических подходов является возможность извлекать новые типы знаний, в том числе о влиянии, корреляции и взаимодействии нескольких аффективных состояний друг на друга, что потенциально влечет к улучшению качества распознавания. Приводятся потенциальные требования к разрабатываемым системам анализа аффективных состояний и основные направления дальнейших исследований.
Бесплатно
Статья
Нейросетевой подход к ИИ, получивший особенно широкое распространение в последнее десятилетие, обладает двумя существенными ограничениями – обучение моделей, как правило, требует очень большого количества образцов (не всегда доступных), а получающиеся модели не являются хорошо интерпретируемыми, что может снижать доверие к ним. Использование символьных знаний как основы коллаборативных процессов с одной стороны и распространение нейросетевого ИИ с другой, обусловливают необходимость синтеза нейросетевой и символьной парадигм применительно к созданию коллаборативных систем поддержки принятия решений. В статье представлены результаты аналитического обзора в области онтолого-ориентированного нейро-символического интеллекта применительно к решению задач обмена знаниями при коллаборативной поддержке принятия решений. А именно, в ходе обзора делается попытка ответить на два вопроса: 1. как символьные знания, представленные в виде онтологии, могут быть использованы для улучшения ИИ-агентов, действующих на основе нейронных сетей (передача знаний от человека к ИИ-агентам); 2. как символьные знания, представленные в виде онтологии, могут быть использованы для интерпретации решений, принимаемых ИИ-агентами и объяснения этих решений (передача знаний от ИИ-агента к человеку). В результате проведенного обзора сформулированы рекомендации по выбору методов внедрения символьных знаний в нейросетевые модели, а также выделены перспективные направления онтолого-ориентированных методов объяснения нейронных сетей.
Бесплатно
Статья
Начиная с 2019 года все страны мира столкнулись со стремительным распространением пандемии, вызванной коронавирусной инфекцией COVID-19, борьба с которой продолжается мировым сообществом и по настоящее время. Несмотря на очевидную эффективность средств индивидуальной защиты органов дыхания от заражения коронавирусной инфекцией, многие люди пренебрегают использованием защитных масок для лица в общественных местах. Поэтому для контроля и своевременного выявления нарушителей общественных правил здравоохранения необходимо применять современные информационные технологии, которые будут детектировать защитные маски на лицах людей по видео- и аудиоинформации. В статье приведен аналитический обзор существующих и разрабатываемых интеллектуальных информационных технологий бимодального анализа голосовых и лицевых характеристик человека в маске. Существует много исследований на тему обнаружения масок по видеоизображениям, также в открытом доступе можно найти значительное количество корпусов, содержащих изображения лиц как без масок, так и в масках, полученных различными способами. Исследований и разработок, направленных на детектирование средств индивидуальной защиты органов дыхания по акустическим характеристикам речи человека пока достаточно мало, так как это направление начало развиваться только в период пандемии, вызванной коронавирусной инфекцией COVID-19. Существующие системы позволяют предотвратить распространение коронавирусной инфекции с помощью распознавания наличия/отсутствия масок на лице, также данные системы помогают в дистанционном диагностировании COVID-19 с помощью обнаружения первых симптомов вирусной инфекции по акустическим характеристикам. Однако, на сегодняшний день существует ряд нерешенных проблем в области автоматического диагностирования симптомов COVID-19 и наличия/отсутствия масок на лицах людей. В первую очередь это низкая точность обнаружения масок и коронавирусной инфекции, что не позволяет осуществлять автоматическую диагностику без присутствия экспертов (медицинского персонала). Многие системы не способны работать в режиме реального времени, из-за чего невозможно производить контроль и мониторинг ношения защитных масок в общественных местах. Также большинство существующих систем невозможно встроить в смартфон, чтобы пользователи могли в любом месте произвести диагностирование наличия коронавирусной инфекции. Еще одной основной проблемой является сбор данных пациентов, зараженных COVID-19, так как многие люди не согласны распространять конфиденциальную информацию.
Бесплатно
Статья
Точность систем автоматического распознавания спонтанной речи далека от тех, которые демонстрируют системы распознавания подготовленной речи. Обусловлено это тем, что спонтанная речь не характеризуется той плавностью и отсутствием сбоев, что подготовленная. Спонтанная речь варьируется от диктора к диктору: отличное произношение фонем, наличие пауз, речевых сбоев и экстралингвистических компонентов (смех, кашель, чихание, и цыканье при выражении эмоции раздражения и др.) прерывают плавность вербальной речи. Экстралингвистические компоненты очень часто несут важную паралингвистическую информацию, поэтому для систем автоматического распознавания спонтанной речи важно распознавать подобные явления в потоке речи. В данном обзоре проанализированы научные работы, посвященные проблеме автоматического анализа экстралингвистических компонентов спонтанной речи. Рассмотрены и описаны как отдельные методы и подходы по распознаванию экстралингвистических компонентов в потоке речи, так и работы, связанные с многоклассовой классификацией изолированно записанных экстралингвистических компонентов. Наиболее распространенными методами анализа экстралингвистических компонентов являются нейронные сети, такие как глубокие нейронные сети и сети на основе моделей-трансформеров. Приведены основные понятия, относящиеся к термину экстралингвистические компоненты, предложена оригинальная систематизация экстралингвистических компонентов в русском языке, описаны корпуса и базы данных звучащей разговорной речи как на русском, так и на других языках, также приведены наборы данных экстралингвистических компонентов, записанных изолированно. Точность распознавания экстралингвистических компонентов повышается при соблюдении следующих условия работы с речевым сигналом: предобработка аудиосигналов вокализаций показала повышение точности классификации отдельно записанных экстралингвистических компонентов; учет контекста (анализ нескольких фреймов речевого сигнала) и использовании фильтров для сглаживания временных рядов после извлечения векторов признаков показали повышение точности при пофреймовом анализе речевого сигнала со спонтанной речью.
Бесплатно
Статья
В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.
Бесплатно
Аналитический обзор систем автоматического определения депрессии по речи
Статья
В последние годы в медицинской и научно-технической среде возрос интерес к задаче автоматического определения наличия депрессивного состояния у людей. Депрессия является одним из самых распространенных психических заболеваний, непосредственно влияющих на жизнь человека. В данном обзоре представлены и проанализированы работы за последние два года на тему определения депрессивного состояния у людей. Приведены основные понятия, относящиеся к определению депрессии, описаны как одномодальные, так и многомодальные корпусы, содержащие записи информантов с установленным диагнозом депрессии, а также записи контрольных групп, людей без депрессии. Рассмотрены как теоретические исследования, так и работы, в которых описаны автоматические системы для определения депрессивного состояния — от одномодальных до многомодальных. Часть рассмотренных систем решает задачу регрессивной классификации, предсказывая степень тяжести депрессии (отсутствие, слабая, умеренная, тяжелая), а другая часть – задачу бинарной классификации, предсказывая наличие заболевания у человека или его отсутствие. Представлена оригинальная классификация методов вычисления информативных признаков по трем коммуникативным модальностям (аудио, видео и текстовая информация). Описаны современные методы, используемые для определения депрессии в каждой из модальностей и в совокупности. Наиболее популярными методами моделирования и распознавания депрессии в рассмотренных работах являются нейронные сети. В ходе аналитического обзора выявлено, что основными признаками депрессии считаются психомоторная заторможенность, которая влияет на все коммуникативные модальности, и сильная корреляция с аффективными величинами валентности, активации и доминации, при этом наблюдается обратная корреляция между депрессией и агрессией. Выявленные корреляции подтверждают взаимосвязь аффективных расстройств с эмоциональными состояниями человека. В множестве рассмотренных работ наблюдается тенденция объединения модальностей для улучшения качества определения депрессии.
Бесплатно
Статья
Предлагается новый быстрый метод регистрации движения глаз в режиме реального времени на основе исследования гранично-ступенчатой модели полутонового изображения оператором Лапласиан – Гауссиана и нахождения нового предложенного дескриптора накопленных разностей (идентификатора точек), который отображает меру равноудаленности каждой точки от границ некоторой относительно монотонной области (например, зрачок глаза). Работа данного дескриптора исходит из предположения о том, что зрачок в кадре является наиболее округлой монотонной областью, имеющей высокий перепад яркости на границе, пиксели области должны иметь интенсивность меньше заранее заданного порога (но при этом зрачок может не являться самой темной областью на изображении). Учитывая все вышеперечисленные характеристики зрачка, дескриптор позволяет достичь высокой точности детектирования его центра и размера в отличии от методов, основанных на пороговой сегментации изображения, опирающихся на предположение о зрачке как наиболее темной области, морфологических методов (рекурсивная морфологическая эрозия), корреляционных или методов, исследующих только граничную модель изображения (преобразование Хафа и его вариации с двумерным и трехмерным пространствами параметров, алгоритм Starburst, Swirski, RANSAC, ElSe). Исследована возможность представления задачи трекинга зрачка как задачи многомерной оптимизации и ее решение неградиентным методом Хука –Дживса, где в качестве целевой функции выступает функция, выражающая дескриптор. При этом отпадает необходимость в вычислении дескриптора каждой точки изображения (составления специальной аккумуляторной функции), что значительно ускоряет работу метода. Проведен анализ предложенных дескриптора и метода, а также разработан программный комплекс на языке Python 3 (визуализация) и C++ (ядро трекинга) в лаборатории физико-математического факультета Камчатского государственного университета им. Витуса Беринга, позволяющий иллюстрировать работу метода и осуществлять трекинг зрачка в режиме реального времени.
Бесплатно
Статья
В статье решается задача верификации разливов нефти на водных поверхностях рек, морей и океанов по оптическим аэрофотоснимкам с использованием методов глубокого обучения. Особенностью данной задачи является наличие визуально похожих на разливы нефти областей на водных поверхностях, вызванных цветением водорослей, веществ, не приносящих экологический ущерб (например, пальмовое масло), бликов при съемке или природных явлений (так называемые «двойники»). Многие исследования в данной области основаны на анализе изображений, полученных от радаров с синтезированной апертурой (Synthetic Aperture Radar (SAR) images), которые не обеспечивают точной классификации и сегментации. Последующая верификация способствует сокращению экологического и материального ущерба, а мониторинг размеров площади нефтяного пятна используется для принятия дальнейших решений по устранению последствий. Предлагается новый подход к верификации оптических снимков как задачи бинарной классификации на основе сиамской сети, когда фрагмент исходного изображения многократно сравнивается с репрезентативными примерами из класса нефтяных пятен на водных поверхностях. Основой сиамской сети служит облегченная сеть VGG16. При превышении порогового значения выходной функции принимается решение о наличии разлива нефти. Для обучения сети был собран и размечен собственный набор данных из открытых интернет-ресурсов. Существенной проблемой является несбалансированность выборки данных по классам, что потребовало применения методов аугментации, основанных не только на геометрических и цветовых манипуляциях, но и на основе генеративной состязательной сети (Generative Adversarial Network, GAN). Эксперименты показали, что точность классификации разливов нефти и «двойников» на тестовой выборке достигает значений 0,91 и 0,834 соответственно. Далее решается дополнительная задача семантической сегментации нефтяного пятна с применением сверточных нейронных сетей (СНС) типа кодировщик-декодировщик. Для сегментации исследовались три архитектуры глубоких сетей, а именно U-Net, SegNet и Poly-YOLOv3. Лучшие результаты показала сеть Poly-YOLOv3, достигнув точности 0,97 при среднем времени обработки снимка 385 с веб-сервисом Google Colab. Также была спроектирована база данных для хранения исходных и верифицированных изображений с проблемными областями.
Бесплатно
Вопросы создания машинопонимаемых SMART-стандартов на основе графов знаний
Статья
Развитие цифровой трансформации требует широкого использования новых технологий в документах по стандартизации. Одной из задач является создание стандартов с машинопонимаемым содержанием, которые позволят использовать цифровые документы на различных этапах разработки и производства без необходимости участия человека-оператора. Целью данной работы является описание подхода для создания и перевода в машинопонимаемое представление нормативных документов отрасли для дальнейшего их использования в программных сервисах и системах. Содержимое SMART-стандарта бывает трех видов: машиночитаемое, машиноинтерпретируемое и машинопонимаемое. Для формализации данных и знаний при решении различных задач активно используются графы знаний. Предложен новый двухуровневый подход для создания и перевода в машинопонимаемое представление нормативных документов как графов знаний. Подход определяет два вида интерпретации такого документа (человекочитаемость и машинопонимаемость) через два связанных формата: граф, каждый семантический узел которого представляет текст на естественном языке, и сеть понятий и строгих связей. Каждому узлу «человекочитаемого» графа соответствует (в общем случае) поддерево машинопонимаемого графа знаний. В качестве основы для обеспечения преобразования одной формы представления SMART-стандарта в другую форму служат LLM модели, дополняемые специализированным адаптером, полученным в результате дообучения с помощью подхода Parameter-Efficient Fine-Tuning. Установлены требования к набору проблемно- и предметно-ориентированных инструментальных средств формирования графов знаний. Показана концептуальная архитектура системы поддержки решения комплекса задач на основе SMART-документов в виде графов, установлены принципы реализации программных компонентов, работающих со знаниями, для интеллектуальных программных сервисов.
Бесплатно