Статьи журнала - Информатика и автоматизация (Труды СПИИРАН)

Все статьи: 266

AAFNDL — точная модель распознавания поддельной информации с использованием глубокого обучения вьетнамского языка

Нгуен Вьет Хунг, Тханг Куанг Лои, Нгуен Ти Хыонг, Тран Тхи Туй Ханг, Труонг Ту Хыонг

Статья

В интернете «фейковые новости» - это распространенное явление, которое часто беспокоит общество, поскольку содержит заведомо ложную информацию. Проблема активно исследовалась с использованием обучения с учителем для автоматического обнаружения фейковых новостей. Хотя точность растет, она по-прежнему ограничивается идентификацией ложной информации через каналы на социальных платформах. Это исследование направлено на повышение надежности обнаружения фейковых новостей на платформах социальных сетей путем изучения новостей с неизвестных доменов. Особенно трудно обнаружить и предотвратить распространение информации в социальных сетях во Вьетнаме, потому что все имеют равные права на использование интернета для разных целей. Эти люди имеют доступ к нескольким платформам социальных сетей. Любой пользователь может публиковать или распространять новости через онлайн-платформы. Эти платформы не пытаются проверять пользователей, их местоположение или содержимое их новостей. В результате некоторые пользователи пытаются распространять через эти платформы фейковые новости для пропаганды против отдельного лица, общества, организации или политической партии. Мы предложили проанализировать и разработать модель распознавания фейковых новостей с использованием глубокого обучения (называемого AAFNDL). Метод выполнения работы: 1) во-первых, анализируем существующие методы, такие как представление двунаправленного кодировщика от преобразователя (BERT); 2) приступаем к построению модели для оценки; 3) подходим к применению некоторых современных методов к модели, таких как метод глубокого обучения, метод классификатора и т.д., для классификации ложной информации. Эксперименты показывают, что наш метод может улучшить результаты на 8,72% по сравнению с другими методами.

Бесплатно

ADA-NAF: Полуконтролируемое обнаружение аномалий на основе нейронного леса внимания

Андрей Юрьевич Агеев, Андрей Владимирович Константинов, Лев Владимирович Уткин

Статья

В этом исследовании мы представляем новую модель под названием ADA-NAF (автоэнкодер обнаружения аномалий с нейронным лесом внимания) для полуконтролируемого обнаружения аномалий, которая уникальным образом интегрирует архитектуру нейронного леса внимания (NAF), которая была разработана для объединения случайного классификатора леса с нейронной сетью, вычисляющей веса внимания для агрегации прогнозов дерева решений. Ключевая идея ADA-NAF заключается в включении NAF в структуру автоэнкодера, где он реализует функции компрессора, а также реконструктора входных векторов. Наш подход представляет несколько технических достижений. Во-первых, предлагаемая сквозная методология обучения по обычным данным, которая минимизирует ошибки реконструкции при обучении и оптимизации нейронных весов внимания для фокусировки на скрытых признаках. Во-вторых, новый механизм кодирования, который использует иерархическую структуру NAF для захвата сложных шаблонов данных. В-третьих, адаптивная структура оценки аномалий, которая объединяет ошибки реконструкции с важностью признаков на основе внимания. Благодаря обширным экспериментам с различными наборами данных ADA-NAF демонстрирует превосходную производительность по сравнению с современными методами. Модель демонстрирует особую силу в обработке многомерных данных и выявлении тонких аномалий, которые традиционные методы часто не обнаруживают. Наши результаты подтверждают эффективность и универсальность ADA-NAF как надежного решения для реальных задач обнаружения аномалий с перспективными приложениями в кибербезопасности, промышленном мониторинге и диагностике здравоохранения. Эта работа продвигает эту область, представляя новую архитектуру, которая сочетает в себе интерпретируемость механизмов внимания с мощными возможностями обучения признакам автоэнкодеров.

Бесплатно

Cоставление расписаний как задача удовлетворения ограничений (на примере планирования открытых горных работ)

Александр Анатольевич Зуенко, Юрий Андреевич Олейник

Статья

Описываемые в статье исследования направлены на развитие методов составления расписаний. Принципиальным недостатком существующих методов смешано- целочисленного линейного программирования в применении к рассматриваемым задачам является то, что они слишком требовательны к объемам оперативной памяти. Сложность же применения процедур локального поиска к подобным задачам высокой размерности состоит в разработке эффективного способа нахождения приемлемого первоначального приближения и определении функции перехода в соседнее состояние, которая бы позволила достаточно быстро достичь оптимума. В теории исследования операций добавление к задаче дополнительных условий может привести к принципиальному изменению используемой схемы решения задачи. Предлагаемые в статье методы реализованы в рамках парадигмы программирования в ограничениях, что позволяет более экономно с точки зрения оперативной памяти представлять зависимости предметной области, а также обеспечивает возможность поэтапного учета разнородных условий задачи без принципиального изменения схемы поиска решений. Существенная часть исследований посвящена использованию методов логического вывода на ограничениях для снижения размерности пространства поиска и ускорения процесса вычислений. Подход к составлению расписаний проиллюстрирован на задаче оптимизации планирования открытых горных работ, которую впервые предложено решать как задачу удовлетворения ограничений. Для нахождения первого допустимого решения предложен метод «жадного» поиска, результат применения которого затем может быть улучшен с помощью разработанного гибридного метода. Оба метода опираются на оригинальные процедуры вывода на ограничениях. Предложенный подход доказал свою эффективность для блочных моделей размерностью в десятки и сотни тысяч блоков.

Бесплатно

EWT-CGAN аугментация данных измерительных систем

Алексей Викторович Ерпалов, Владимир Владимирович Синицин, Александр Леонидович Шестаков

Статья

В статье представлен новый метод аугментации данных измерительных систем, разработанный для задач мониторинга состояния промышленного оборудования. Актуальность исследования обусловлена существенными ограничениями традиционных методов генерации синтетических данных, которые не способны адекватно воспроизводить сложные нестационарные сигналы с характерными переходными процессами, трендами и сезонными вариациями, наблюдаемыми в реальных промышленных условиях. Предложенный метод основан на интеграции двух современных методов: эмпирического вейвлет-преобразования (EWT) и условных генеративных состязательных сетей (Conditional GAN). Метод реализуется в три этапа: (1) адаптивная декомпозиция исходных сигналов на моды с помощью EWT, (2) категоризация мод с присвоением меток, (3) генерация синтетических данных с использованием Conditional GAN. Для комплексной оценки качества синтезированных сигналов применялся набор статистических метрик, включая расстояние Wasserstein (WS), коэффициент корреляции Пирсона (PCC) и среднеквадратическую ошибку (RMSE). Экспериментальные исследования проводились на реальных данных температурного датчика, работающего в условиях нестационарных режимов промышленного оборудования. Результаты демонстрируют значительное преимущество предложенного метода по сравнению с традиционным подходом timeGAN: снижение расстояния Wasserstein на 17%, увеличение коэффициента корреляции Пирсона на 57% и уменьшение среднеквадратической ошибки на 21%. Полученные данные свидетельствуют об эффективности метода в воспроизведении ключевых характеристик исходных сигналов. Разработанный метод позволяет создавать набор синтетических данных, необходимых для обучения современных нейросетевых моделей диагностики промышленного оборудования. Его практическое применение позволяет существенно сократить затраты на сбор экспериментальных данных, обеспечивая высокое качество синтезированных сигналов, что подтверждено статистическими метриками.

Бесплатно

H-Detect: алгоритм раннего выявления гидроцефалии

Дев Балони, Дханвир Сингх Рай, П.Г. Сивагаминатан, Харишчандер Анандарам, Мадхур Таплиял, Капил Джоши

Статья

Гидроцефалия - это заболевание центральной нервной системы, которое чаще всего поражает младенцев и детей ясельного возраста. Оно начинается с аномального накопления спинномозговой жидкости в желудочковой системе головного мозга. Следовательно, жизненно важной становится ранняя диагностика, которая может быть выполнена с помощью компьютерной томографии (КТ), одного из наиболее эффективных методов диагностики гидроцефалии (КТ), при котором становится очевидным увеличение желудочковой системы. Однако большинство оценок прогрессирования заболевания основаны на оценке рентгенолога и физических показателях, которые являются субъективными, отнимающими много времени и неточными. В этой статье разрабатывается автоматическое прогнозирование с использованием фреймворка H-detect для повышения точности прогнозирования гидроцефалии. В этой статье используется этап предварительной обработки для нормализации входного изображения и удаления нежелательных шумов, что может помочь легко извлечь ценные признаки. Выделение признаков осуществляется путем сегментации изображения на основе определения границ с использованием треугольных нечетких правил. Таким образом, выделяется точная информация о природе ликвора внутри мозга. Эти сегментированные изображения сохраняются и снова передаются алгоритму CatBoost. Обработка категориальных признаков позволяет ускорить обучение. При необходимости детектор переобучения останавливает обучение модели и, таким образом, эффективно прогнозирует гидроцефалию. Результаты демонстрируют, что новая стратегия H-detect превосходит традиционные подходы.

Бесплатно

RainCast: Гибридный алгоритм наукастинга интенсивности осадков по данным спутниковых наблюдений КА Himawari-8/9

Александр Иванович Андреев, Михаил Олегович Кучма, Сергей Иванович Мальковский, Андрей Александрович Филей

Статья

В работе предложен алгоритм RainCast (Rain Rate NowCast), предназначенный для краткосрочного прогноза интенсивности осадков на срок до двух часов. Данное направление метеорологии, в англоязычной литературе получившее название «наукастинг» (nowcasting), является одним из наиболее востребованных информационных продуктов во многих сферах человеческой деятельности. Вместе с тем, его доступность может быть сильно ограничена имеющейся наземной инфраструктурой. В настоящей работе авторами поставлена цель создания алгоритма прогноза осадков, предназначенного для одной из таких территорий на примере Азиатско-Тихоокеанского регионе с использованием спутниковых измерений космического аппарата Himawari-8/9. Предложенный алгоритм объединяет преимущества детерминированного и статистического подходов к задаче прогноза и основан на использовании двух нейросетевых моделей. Первая модель осуществляет предварительный прогноз общего направления движения осадков на мезомасштабном уровне с помощью физически-обусловленной нейронной сети NowcastNet. Вторая модель на основе архитектуры CasFormer служит для постобработки полученного прогноза методом диффузий с целью повышения его детализации. Разработанный с использованием данного метода гибридный алгоритм RainCast позволяет получать краткосрочный прогноз интенсивности осадков на срок до двух часов с частотой каждые 10 минут и пространственным разрешением 2 км/пиксель на основе спутниковых измерений в инфракрасном диапазоне. Спутниковые измерения используются для расчета интенсивности осадков по ранее предложенному авторами алгоритму. На основе карт осадков сформированы обучающие, валидационные и тестовые наборы данных, применяемые для обучения, настройки алгоритма и оценки качества прогнозов соответственно. Для предложенного алгоритма RainCast, а также применяемых в мировой практике актуальных решений, таких как NowcastNet, CasFormer, Earthformer, было проведено обучение с использованием сформированных наборов данных, после чего для указанных алгоритмов был рассчитан ряд показателей качества получаемых прогнозов. Из полученных результатов можно сделать вывод, что предложенный в настоящей работе гибридный алгоритм RainCast имеет более высокое качество прогноза в сравнении с другими вышеперечисленными решениями при равных условиях. Для валидационного набора данных на территории Дальневосточного региона при прогнозе алгоритмом RainCast c заблаговременностью 2 часа были получены следующие показатели для последнего спрогнозированного кадра: корень среднеквадратической ошибки RMSE составил 0.88 мм/ч, вероятность обнаружения POD – 0.78, коэффициент корреляции Пирсона – 0.75, индекс структурного сходства SSIM – 0.91, а пиковое отношение сигнала к шуму PSNR – 36.63. Дополнительно проведенный визуальный анализ прогнозов подтвердил, что наиболее близкие к фактическим наблюдениям результаты имеет предложенный гибридный региональный алгоритм RainCast.

Бесплатно

Unet-boosted classifier – мультизадачная архитектура для малых выборок на примере классификации МРТ снимков головного мозга

Кирилл Валентинович Собянин, Софья Петровна Куликова

Статья

Проблема обучения глубоких нейронных сетей на малых выборках особенно актуальна для медицинских задач. В работе рассматривается влияние попиксельной разметки значимых объектов на изображении, в дополнении к истинной метке класса, на качество решения задачи классификации. Для достижения лучших результатов классификации на малых выборках предлагается мультизадачная архитектура Unet-boosted classifier (UBC), обучаемая одновременно для решения задач классификации и семантической сегментации. В качестве исследуемого набора данных используются МРТ-снимки пациентов c доброкачественной глиомой и глиобластомой, взятые из открытого набора данных BraTS 2019. В качестве входа рассматривается один горизонтальный срез МРТ-изображения, содержащий глиому (всего 380 кадров в обучающей выборке), в качестве выхода – вероятность глиобластомы. В качестве базового решения используется ResNet34, обученный без аугментаций с функцией потерь на основе взаимной энтропии (CrossEntropyLoss). В качестве альтернативного решения используется UBC-ResNet34 – тот же ResNet34 усиленный декодером, построенным по принципу U-Net, и предсказывающим положение глиомы. В качестве дополнительной функции потерь используется сглаженный коэффициент Соренсена-Дайса (DiceLoss). Результаты на тестовой выборке: доля правильных ответов (accuracy) для базовой модели составила 0.71, для альтернативной – 0.81, коэффициент Дайса (Dice score) при этом составил 0.77. Таким образом, глубокую модель можно качественно обучить даже на небольшом наборе данных, используя предложенную архитектуру и добавив в разметку информацию о пораженных тканях в виде семантической маски. Предлагаемый подход потенциально может быть полезен и в любых других задачах классификации изображений с ограниченным набором данных.

Бесплатно

Автоматическая генерация аннотаций научных статей на основе больших языковых моделей

Андрей Николаевич Голубинский, Андрей Андреевич Толстых, Марина Юрьевна Толстых

Статья

Предложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций, выделена проблематика, касающаяся установления баланса между затратами времени на аннотирование и обеспечением соблюдения ключевых требований к аннотации. Проанализированы основы аннотирования, представленные в семействе стандартов по информации, библиотечному и издательскому делу, приведены классификация аннотаций и требования к их наполнению и функционалу. Схемографически представлено существо и содержание процесса аннотирования, типовая структура объекта исследования. Проанализирован вопрос интеграции в процесс аннотирования цифровых технологий, особое внимание уделено преимуществам внедрения машинного обучения и технологий искусственного интеллекта. Кратко описан цифровой инструментарий, применяемый для генерации текста в приложениях обработки естественного языка. Отмечены его недостатки для решения поставленной в данной научной статье задачи. В исследовательской части обоснован выбор модели машинного обучения, применяемый для решения задачи условной генерации текста. Проанализированы существующие предобученные большие языковые модели и с учетом постановки задачи и имеющихся ограничений вычислительных ресурсов выбрана модель ruT5-base. Приведено описание датасета, включающего научные статьи из журналов, включенных в перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук. Охарактеризована методика разметки данных, основанная на работе токинезатора предобученной большой языковой модели, графически и таблично приведены численные характеристики распределений датасета и параметры конвейера обучения. Для оценки модели использована метрика качества ROUGE, для оценки результатов – метод экспертных оценок, включающий грамматику и логику в качестве базовых критериев. Качество автоматической генерации аннотаций сопоставимо с реальными текстами, отвечает требованиям информативности, структурированности и компактности. Статья может представлять интерес для аудитории ученых и исследователей, стремящихся оптимизировать свою научную деятельность в части интеграции в процесс написания статей инструментов цифровизации, а также специалистам, занимающимся обучением больших языковых моделей.

Бесплатно

Адаптивное построение регрессионных моделей на основе анализа функционала качества обработки сегментов последовательности

Илья Сергеевич Лебедев

Статья

Рассмотрена задача адаптивного построения модели, направленной на повышение показателей качества обработки информационных последовательностей. В методах обработки данных, которые нашли применение во многих прикладных областях, применяемый анализ объектов наблюдения является вычислительно ресурсоемким и в случае изменения свойств данных, требует большого количества итераций. В статье предложена методика выбора сегментов информационной последовательности, полученных разными способами, отличающаяся использованием функционала качества регрессионных моделей обработки подпоследовательностей. Поступающие на вход последовательности объектов наблюдения подвергаются разделению различными предварительно заданными алгоритмами сегментации. На каждом полученном сегменте обучаются заранее выбранные регрессионные модели и, в зависимости от полученных значений вычисленного функционала качества, происходит назначение лучших по качественным показателям моделей на сегменты. Это позволяет формировать агрегационную модель обработки данных. На основе эксперимента на модельных данных и выборках проведена оценка предлагаемой методики. Получены значения показателя качества MSE и MAE для разных алгоритмов обработки и при различном количестве сегментов. Предлагаемая методика дает возможность повысить показатели MSE и МАЕ за счет сегментации и назначения регрессионных моделей, которые имеют наилучшие показатели на отдельных сегментах. Предложенное решение направлено на дальнейшее усовершенствование ансамблевых методов. Его применение позволяет повысить оперативность настройки базовых алгоритмов в случае трансформации свойств данных и улучшить интерпретируемость результатов. Методика может применяться при разработке моделей и методов обработки информационных последовательностей.

Бесплатно

Алгоритм Rivest-Shamir-Adleman, оптимизированный для защиты устройств Интернета вещей от конкретных атак

Р. Рита Дженифер, В. Синту Джанита Пракаш

Статья

Устройства Интернета вещей играют важнейшую роль в современном мире во многих отношениях, поскольку они обеспечивают поддержку для зондирования окружающей среды, автоматизации и ответственного сохранения ресурсов. В «умном» мире повсеместное присутствие устройств Интернета вещей в повседневной жизни неизбежно. Широкое использование устройств Интернета вещей привлекает к себе любопытные взгляды злонамеренных хакеров. Несмотря на то, что существует несколько систем и протоколов безопасности, доступных для обычных беспроводных сетей, наблюдается необходимость в разработке современного механизма безопасности исключительно для сетевых сред Интернета вещей. Эта работа представляет улучшения безопасности сетей Интернета вещей. В ней собраны три специализированных способа для достижения более высоких показателей безопасности в сетевых средах Интернета вещей. Fast Fuzzy Anomaly Detector, Legacy Naïve Bayes Attack Classifiers и Variable Security Schemer of Rivest-Shamir-Adleman algorithm – это новые модули, представленные в этой работе, сокращенно ASORI. Уникальные преимущества встроенного механизма сертификации Интернета вещей и выбор динамической стратегии безопасности являются новшествами, представленными в данной работе. Модель ASORI была проверена с использованием промышленного стандартного симулятора сети OPNET для обеспечения улучшенной безопасности наряду с существенными улучшениями параметров производительности сети.

Бесплатно

Алгоритм и технические решения динамического конфигурирования клиент-серверных вычислительных сетей

Роман Викторович Максимов, Сергей Петрович Соколовский, Иван Сергеевич Ворончихин

Статья

Проанализированы основные факторы, обуславливающие расширение возможностей и повышение результативности сетевой разведки по идентификации состава и структуры клиент-серверных вычислительных сетей вследствие стационарности их структурно-функциональных характеристик. Вскрытые особенности защиты клиент-серверных вычислительных сетей, основанных на реализации принципов пространственного обеспечения безопасности, а также формализация и внедрение множества запрещающих регламентов обосновывают актуальность задачи динамического управления структурно-функциональными характеристиками клиент-серверных вычислительных сетей, функционирующих в условиях сетевой разведки. Представлена математическая модель, позволяющая находить оптимальные режимы динамического конфигурирования структурно-функциональных характеристик клиент-серверных вычислительных сетей для различных ситуаций. Приведены результаты расчетов. Представлен алгоритм решения задачи динамической конфигурации структурно-функциональных характеристик клиент-серверной вычислительной сети, обеспечивающий уменьшение времени достоверности добываемых сетевой разведкой данных. Показаны результаты практических испытаний разработанного на основе алгоритма динамического конфигурирования клиент-серверных вычислительных сетей программного обеспечения. Полученные результаты свидетельствуют, что использование представленного решения по динамическому конфигурированию клиент-серверных вычислительных сетей позволяет повысить результативность защиты за счет изменения структурно-функциональных характеристик клиент-серверных вычислительных сетей в рамках нескольких подсетей. При этом достигнуто поддержание критически важных соединений, а интервалы времени изменения структурно-функциональных характеристик адаптивны к условиям функционирования и действиям злоумышленника. Новизна разработанной модели заключается в применении математического аппарата теории марковских случайных процессов и решении уравнений Колмогорова для обоснования выбора режимов динамического конфигурирования структурно-функциональных характеристик клиент-серверных вычислительных сетей. Новизна разработанного алгоритма состоит в применении модели динамического конфигурирования структурно-функциональных характеристик клиент-серверных вычислительных сетей для динамического управления структурно-функциональными характеристиками клиент-серверной вычислительной сети в условиях сетевой разведки.

Бесплатно

Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec

Хуу Нгуен Фат, Нгуен Тхи Минь Ань

Статья

В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.

Бесплатно

Алгоритм корректировки положения кустовых площадок при решении задачи разработки нефтяных месторождений

Егор Дмитриевич Кулаков, Антон Сергеевич Михалев, Александр Валерьевич Саренков, Артем Дмитриевич Шуталев, Артем Евгеньевич Федореев

Статья

Данная статья посвящена проблеме автоматизации этапа объединения скважин в кусты, рассматриваемого в рамках процесса проектирования разработки нефтяных месторождений. Решение задачи объединения скважин в кусты заключается в определении наилучшего расположения кустовых площадок и распределения скважин по кустам, при которых будут минимизированы затраты на разработку и обслуживание нефтяного месторождения, а ожидаемый дебит максимизирован. Одним из используемых на сегодняшний день подходов является применение оптимизационных алгоритмов. При этом данная задача влечет за собой учет технологических ограничений при поиске оптимального варианта разработки нефтяного месторождения, обоснованным в том числе действующими в отрасли регламентами, а именно минимальное и максимальное допустимое количество скважин в кусте, а также минимально допустимое расстояние между двумя кустовыми площадками. Использование алгоритмов оптимизации не всегда гарантирует оптимальный результат, при котором соблюдаются все заданные ограничения. В рамках данного исследования предложен алгоритм, который позволяет обрабатывать получаемые проектные решения с целью устранения нарушенных ограничений на этапе оптимизации. Алгоритм последовательно решает следующие проблемы: нарушение ограничений на сверхмалое и сверхбольшое количество скважин в кусте; несоответствие числа кустов с заданным; нарушение ограничения на сверхблизкое расположение кустов. Для исследования эффективности разработанного подхода был проведен вычислительный эксперимент на трех сгенерированных синтетических месторождениях с разной геометрией. В рамках эксперимента сравнивалось качество работы оптимизационного метода и предложенного алгоритма, который является надстройкой к оптимизационному. Сравнение проводилось на различных значениях мощности оптимизации, которое обозначает максимальное количество запусков целевой функции. Оценка качества работы сравниваемых подходов определяется величиной штрафа, которая обозначает степень нарушения значений основных ограничений. Критериями эффективности в данной работе являются: среднее значение, среднеквадратичное отклонение, медиана, минимальное и максимальное значения величины штрафа. За счет использования данного алгоритма величина штрафа для первого и третьего месторождений в среднем уменьшается соответственно до 0.04 и 0.03, а для второго месторождения алгоритм позволил получить проектные решения без нарушения ограничений. По результатам проведенного исследования сделано заключение относительно эффективности применения разработанного подхода при решении задачи разработки нефтяных месторождений.

Бесплатно

Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера

Даниил Юрьевич Кравченко, Юрий Алексеевич Кравченко, Али Мансур, Жуман Мохаммад, Николай Сергеевич Павлов

Статья

В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.

Бесплатно

Алгоритм построения дерева синтаксических единиц русскоязычного предложения по дереву синтаксических связей

Анатолий Юрьевич Полетаев, Илья Вячеславович Парамонов, Елена Игоревна Бойчук

Статья

Автоматический синтаксический анализ предложения — одна из важных задач компьютерной лингвистики. В настоящее время для русского языка отсутствуют общедоступные и пригодные для практического применения анализаторы синтаксической структуры. Создание таких анализаторов «с нуля» требует составления корпуса деревьев, размеченного в соответствии с заданной формальной грамматикой, что представляет собой крайне трудоёмкую задачу. Однако, поскольку для русского языка существует несколько анализаторов синтаксических связей, представляется полезным использовать результаты их работы для анализа синтаксической структуры предложений. В настоящей работе предлагается алгоритм, позволяющий построить дерево синтаксических единиц русскоязычного предложения по данному дереву синтаксических связей. Алгоритм использует грамматику, сформулированную в соответствии с классическим справочником Д.Э. Розенталя. Приведены результаты экспериментов по оценке качества работы предложенного алгоритма на корпусе из 300 предложений на русском языке. 200 предложений были выбраны из вышеупомянутого справочника и 100 из открытого корпуса публицистических текстов OpenCorpora. В ходе экспериментов предложения подавались на вход анализаторов из состава библиотек Stanza, SpaCy и Natasha, после чего полученные деревья синтаксических связей обрабатывались предложенным алгоритмом. Полученные в результате обработки деревья синтаксических единиц сравнивались с размеченными вручную экспертами-филологами. Наилучшее качество было получено при использовании анализатора синтаксических связей из библиотеки Stanza: F1-мера построения синтаксических единиц составила 0.85, а точность определения членов предложения — 0.93, чего должно быть достаточно для решения многих практических задач в таких областях, как извлечение событий, информационный поиск, анализ тональности.

Бесплатно

Алгоритм робастного управления одномерным динамическим объектом на основе табличного Q-метода обучения с подкреплением

Михаил Юрьевич Медведев, Вячеслав Хасанович Пшихопов, Игорь Дмитриевич Евдокимов

Статья

В статье представлен обзор в области систем управления динамическими объектами на базе методов машинного обучения с подкреплением. На основе проведенного анализа сделан вывод о актуальности развития методов управления, базирующихся на обучении с подкреплением. В статье предлагается интеллектуальный алгоритм робастного управления устойчивыми динамическими объектами с одним входом и одним выходом, базирующийся на табличном Q-методе обучения нулевого порядка. Алгоритм осуществляет стабилизацию выходной величины объекта управления с заданной погрешностью, если параметры и внешние возмущения объекта являются кусочно-постоянными неизвестными величинами, а вектор состояния является измеряемым. Новизна предложенного алгоритма заключается в новом инкрементальном способе формирования управления, который позволяет, базируясь на множестве из трех возможных действий, стабилизировать объект управления. Предложенный способ формирования множества управляющих воздействий позволяет обеспечить требуемую точность стабилизации выхода объекта, изменяя амплитуду приращения управления. Также элементом новизны является предложенное выражения для расчета вознаграждения, которое позволяет ограничить изменения управления. Предлагаемый алгоритм обладает высокой вычислительной эффективностью. После обучения вычисление управления сводится к вычислению индексов по результатам измерения, чтению данных из памяти по вычисленным индексам и нахождению максимального значения в векторе небольшой размерности. В работе исследованы условия сходимости алгоритма обучения и ограниченности ошибки управления. Разработанный алгоритм демонстрируется на примере синтеза робастного управления двигателем постоянного тока с независимым возбуждением. В ходе численного моделирования исследуется качество замкнутой системы при изменении параметров и задающего воздействия. Анализ результатов позволяет сделать выводы об эффективности синтезированного алгоритма. В статье приводятся результаты экспериментов, которые демонстрируют техническую реализуемость полученного алгоритма. Данный вопрос является важным, так как анализ источников показывает практически полное отсутствие технической реализации систем управления динамическими объектами, синтезированными с использованием методов обучения с подкреплением.

Бесплатно

Алгоритмы и измерительный комплекс классификации источников сейсмических сигналов, определения расстояния и азимута до пункта возбуждения поверхностных волн

Дмитрий Леонидович Зайцев, Виталий Михайлович Брыксин, Константин Сергеевич Белотелов, Юлия Игоревна Компаниец, Роман Никитич Яковлев

Статья

Методы машинного обучения и цифровой обработки сигналов применяются в различных отраслях, в том числе при анализе и классификации сейсмических сигналов поверхностных источников. Разработанный алгоритм анализа типов волн позволяет автоматически идентифицировать и, соответственно, отделять приходящие сейсмические волны на основе их характеристик. Для выделения типов волн используется сейсмический измерительный комплекс, определяющий характеристики граничных волн поверхностных источников с использованием специальных молекулярно-электронных датчиков угловых и линейных колебаний. Представлены результаты работы алгоритма обработки данных, получаемых по методике сейсмических наблюдений, использующей спектральный анализ на основе вейвлета Морле. Также в работе описан алгоритм классификации источников сигнала, определения расстояния и азимута до пункта возбуждения поверхностных волн, рассмотрено использование статистических характеристик и MFCC (Мел-частотные кепстральные коэффициенты) параметров, а также их совместное применение. При этом в качестве статистических характеристик сигнала были использованы следующие: дисперсия, коэффициент эксцесса, энтропия и среднее значение, а в качестве метода машинного обучения был выбран градиентный бустинг; в качестве метода определения расстояния до источника сигнала применен метод машинного обучения на основе градиентного бустинга с применением статистических и MFCC параметров. Обучение проводилось на тестовых данных на основе выделенных особенных параметрах сигналов источников сейсмического возбуждения поверхностных волн. С практической точки зрения, новые методы сейсмических наблюдений и анализа граничных волн позволяют решить проблему обеспечения плотной расстановки датчиков в труднодоступных местах, устранить недостаток знаний в алгоритмах обработки данных сейсмических сенсоров угловых движений, выполнить классификацию и систематизацию источников, повысить точность прогнозирования, реализовать алгоритмы локации и сопровождения источников. Целью работы стало создание алгоритмов обработки сейсмических данных для классификации источников сигнала, определения расстояния и азимута до пункта возбуждения поверхностных волн.

Бесплатно

Алгоритмы первичного анализа локальных объектов флуоресценции в секвенаторе ДНК «Нанофор СПС»

Владимир Владимирович Манойлов, Андрей Геннадьевич Бородинов, Игорь Вячеславович Заруцкий, Александр Иванович Петров, Алексей Сергеевич Сараев, Владимир Ефимович Курочкин

Статья

В секвенаторе ДНК «Нанофор СПС», разработанном в Институте аналитического приборостроения РАН, реализован метод массового параллельного секвенирования для расшифровки последовательности нуклеиновых кислот. Этот метод позволяет определять последовательность нуклеотидов в ДНК или РНК, содержащих от нескольких сотен до сотен миллионов звеньев мономеров. Таким образом, имеется возможность получения подробной информации о геноме различных биологических объектов, в том числе человека, животных и растений. Важнейшей частью этого прибора является программное обеспечение, без которого невозможно решение задач по расшифровке генома. Выходными данными оптической детекции в секвенаторе являются набор изображений по четырем каналам, соответствующим типам нуклеотидов: A, C, G, T. С помощью специального программного обеспечения определяется положение молекулярных кластеров и их интенсивностные характеристики вместе с параметрами окружающего фона. В ходе создания программного обеспечения прибора были разработаны алгоритмы и программы обработки сигналов флуоресценции, рассмотренные в работе. Также, для отладки и тестирования рабочих программ созданы модели построения изображений, аналогичных реальным данным, получаемым в ходе работы секвенатора. Данные модели позволили получить значительный массив информации без запуска дорогостоящих экспериментов. За последние годы достигнуты значительные успехи в области машинного обучения, в том числе и в области биоинформатики, что привело к реализации наиболее распространенных моделей и возможности их применения для практических задач. Однако, если на этапе вторичного анализа биоинформационных данных эти методы широко зарекомендовали себя, то их потенциал для первичного анализа остается недостаточно раскрытым. В данной работе особое внимание уделяется разработке и внедрению методов машинного обучения для первичного анализа оптических изображений сигналов флуоресценции в реакционных ячейках. Описаны методы кластеризации и их апробация на моделях и на изображениях, полученных на приборе. Цель этой статьи – продемонстрировать возможности алгоритмов первичного анализа сигналов флуоресценции, получающихся в процессе секвенирования на приборе «Нанофор СПС». В работе описаны основные задачи анализа сигналов флуоресценции и сравниваются традиционные методы их решения с использованием технологий машинного обучения.

Бесплатно

Алгоритмы планирования траекторий в двумерной среде с препятствиями

Вячеслав Хасанович Пшихопов, Михаил Юрьевич Медведев, Владимир Александрович Костюков, Фирас Хуссейн, Азар Кадим

Статья

В данной статье предложены алгоритмы планирования и управления движением мобильного робота в двухмерной стационарной среде с препятствиями. Задача состоит в том, чтобы сократить длину запланированного пути, учесть динамические ограничения робота и получить плавную траекторию. Для учета динамических ограничений мобильного робота на карту добавляются виртуальные препятствия, перекрывающие невыполнимые участки движения. Такой способ учета динамических ограничений позволяет использовать картографические методы без увеличения их сложности. В качестве алгоритма глобального планирования используется модифицированная версия алгоритма быстрого исследования случайных деревьев (Multi parent nodes RRT – MPN-RRT). В этом алгоритме, в отличие от оригинальной версии, используется несколько родительских узлов, что уменьшает длину запланированной траектории по сравнению с исходной версией RRT с одним узлом. Кратчайший путь на построенном графе находится с помощью алгоритма оптимизации муравьиной колонии. Методами численного моделирования показано, что использование двух родительских узлов позволяет уменьшить среднюю длину пути для городской среды с низкой плотностью застройки. Для решения проблемы медленной сходимости алгоритмов, основанных на случайном поиске и сглаживании путей, алгоритм RRT дополнен алгоритмом локальной оптимизации. Алгоритм RRT ищет глобальный путь, который сглаживается и оптимизируется итеративным локальным алгоритмом. Алгоритмы управления нижнего уровня, разработанные в этой статье, автоматически уменьшают скорость робота при приближении к препятствиям или повороте. Общая эффективность разработанных алгоритмов продемонстрирована методами численного моделирования с использованием большого количества экспериментов.

Бесплатно

Анализ данных разновременной мультиспектральной аэрофотосъемки для обнаружения границ исторического антропогенного воздействия

Александр Сергеевич Шаура, Анна Григорьевна Злобина, Игорь Витальевич Журбин, Айгуль Илсуровна Баженова

Статья

В работе представлено применение алгоритма статистического анализа данных разновременной мультиспектральной аэрофотосъемки с целью выявления участков исторического антропогенного воздействия на природную среду. Исследуемый участок расположен на окраине поселка городского типа Знаменка (Знаменский район Тамбовской области) в лесостепной зоне с типичными черноземными почвами, где во второй половине XIX – начале XX вв. были расположены пашни. Признаком для выявления следов исторического антропогенного воздействия может быть растительность, возникшая в результате вторичной сукцессии на заброшенных участках. Отличительной особенностью такой растительности от окружающей природной среды является ее тип, возраст и плотность произрастания. Таким образом, задача обнаружения границ антропогенного воздействия по мультиспектральным изображениям сводится к задаче классификации растительности. Исходными данными являлись результаты разновременной мультиспектральной съемки в зеленом (Green), красном (Red), краевом красном (RedEdge) и ближнем инфракрасном (NIR) спектральных диапазонах. На первом этапе алгоритма предполагается вычисление текстурных признаков Харалика по данным мультиспектральной съемки, на втором этапе – уменьшение количества признаков методом главных компонент, на третьем – сегментация изображений на основе полученных признаков методом k-means. Эффективность предложенного алгоритма показана при сопоставлении результатов сегментации с эталонными данными исторических картографических материалов. Полученный результат сегментации отражает не только конфигурацию участков анотропогенно-преобразованной природной среды, но и особенности зарастания заброшенной пашни, поскольку исследование разновременных мультиспектральных снимков позволяет более полно охарактеризовать и учесть динамику наращивания фитомассы в разные периоды вегетации.

Бесплатно

Следующая страница →

1
2
3
4
5
6
7
...
В конец

Журнал