Искусственный интеллект, инженерия данных и знаний. Рубрика в журнале - Информатика и автоматизация (Труды СПИИРАН)

Реализация поведенческих функций на спайковых нейронных сетях
Статья
Рассматривается вопрос моделирования поведенческих функций животных, в частности, моделирование и реализация условного рефлекса. Производится анализ современного состояния нейронных сетей с возможностью структурного реконфигурирования. Моделирование осуществляется посредством нейронных сетей, которые строятся на основе сегментной спайковой модели нейрона с возможностью структурной адаптации к входному паттерну импульсов. Сегментная спайковая модель нейрона способна изменять свою структуру (размер тела клетки, количество и длина дендритов, количество синапсов) в зависимости от поступающего на её входы паттерна импульсов. Приведено краткое описание сегментной спайковой модели нейрона, отмечены её основные особенности с точки зрения возможности её структурного реконфигурирования. Описывается способ структурной адаптации сегментной спайковой модели нейрона к входному паттерну импульсов. Для исследования работы предложенной модели нейрона в сети, в качестве примера обосновывается выбор условного рефлекса, как частного случая формирования ассоциативных связей. Приведено описание структурной схемы и алгоритма формирования условного рефлекса как с положительным, так и с отрицательным подкреплением. Представлено пошаговое описание экспериментов по формированию ассоциативных связей вообще и условного рефлекса (как с положительным, так и с отрицательным подкреплением), в частности. Сделан вывод о перспективности применения спайковых сегментных моделей нейронов для повышения эффективности реализации поведенческих функций в нейроморфных системах управления. Рассмотрены дальнейшие перспективные направления развития нейроморфных систем, основанных на спайковых сегментных моделях нейрона.
Бесплатно

Статья
Главной задачей использования нейронных сетей является оперативное и точное решение различных творческих задач, таких как анализ и синтез новостных потоков при сохранении непрерывности обучения. Результатом такой обработки могут быть дайджесты, новостные потоки, прошедшие фильтрацию, а также прогнозы событий, позволяющих обеспечивать проактивность в управленческих решениях Известные методы обработки новостей нейронными сетями и реализующие их технические решения не в полной мере обеспечивают решение возникающих в этой области задач. Необходимо расширить их функциональные возможности, совершенствовать пространственно-временное связывание сигналов в рекуррентных нейронных сетях. При обработке новостных потоков одновременно с непрерывным обучением рекуррентных нейронных сетей следует осуществлять селекцию, распознавание, восстановление, прогнозирование и синтез новостей. Для снижения остроты проблемы предлагается перспективный метод многофункциональной обработки новостных потоков с применением рекуррентных нейронных сетей с логической организацией слоев и непрерывным обучением. Метод основан на развитии ассоциативной обработки текстовой информации в потоковых рекуррентных нейронных сетях с управляемыми элементами. Ключевыми особенностями этого метода являются многофункциональная обработка информационных потоков с изменяющимися законами появления новостей. Метод предусматривает оперативный отбор, распознавание, восстановление, прогнозирование и синтез новостей на основе глубокой ассоциативной непрерывной обработки связей между текстовыми элементами. Реализующая предлагаемый метод нейросетевая система отличается от известных решений новыми элементами, связями между ними, а также выполняемыми функциями. По результатам экспериментов подтверждена расширенная функциональность метода. Выявлены новые особенности обработки новостных текстов потоковыми РНС. Предлагаемые решения могут найти применение при создании интеллектуальных систем нового поколения не только для обработки текстов, но и других видов информации.
Бесплатно

Статья
Беспроводные сенсорные сети (WSN) подвергались нескольким различным проблемам безопасности и атакам, связанным со сбором и отправкой данных. В этом сценарии одной из наиболее распространенных атак WSN, которая может быть нацелена на любой уровень стека протоколов, является атака типа «отказ в обслуживании» (DoS). Текущее исследование предлагает различные стратегии обнаружения атаки в сети. Однако у него есть проблемы с классификацией. Поэтому в этом исследовании для решения этой проблемы была предложена эффективная система обнаружения вторжений на основе ансамблевого глубокого обучения для выявления атак в сети WSN. Предварительная обработка данных включает преобразование качественных данных в числовые с использованием метода One-Hot Encoding. После этого был проведен процесс нормализации. Затем предлагается выбрать лучшее подмножество функций с помощью Manta-Ray Foraging Optimization. Затем метод передискретизации синтетического меньшинства (SMOTE) создает новую выборку меньшинства для балансировки обработанного набора данных. Наконец, предлагается классификатор CNN-SVM для классификации видов атак. Метрики Точность, F-мера, Прецизионность и Отзыв использовались для оценки результатов 99,75%, 99,21%, 100% и 99,6% соответственно. По сравнению с существующими подходами предложенный метод оказался чрезвычайно эффективным при обнаружении DoS-атак в WSN.
Бесплатно

Система SLAM, основанная на скрытых марковских моделях
Статья
Методы одновременной локализации и картографирования (SLAM) являются решением проблемы навигации сервисных роботов. Мы представляем графовую систему SLAM, основанную на скрытых марковских моделях (HMM), где показания датчиков представлены различными символами с использованием ряда методов кластеризации; затем символы объединяются в один для повышения точности с использованием двойных HMM. Универсальность нашей системы позволяет работать с датчиками разных типов или комбинировать датчики, а также реализовать активную или пассивную графовую систему SLAM. В подходе Graph-SLAM, предложенном Karto Robotics International в Cartographer, узлы представляют положение робота, а ребра представляют ограничения между ними. Узлы обычно задаются по непрерывным узлам, за исключением случаев обнаружения замыкания цикла, когда вводятся ограничения на несмежные узлы, что корректирует весь граф. Обнаружение цикливания не является тривиальным; в реализации ROS сопоставление сканирования выполняется с использованием регулировки положения разреженности (SPA). Картограф использует карту занятости, чтобы оценить положение, в котором карта отображается с помощью Gmapping. Робот Toyota HSR (Human Support Robot) использовался для создания набора данных как в реальных, так и в смоделированных условиях соревнований. В нашем представлении SLAM есть оценка одометрии колес в соответствии с начальным положением робота, 2D-лидарное сканирование Hokuyo для наблюдений, а также контроль сигналов и оценка карты окружающего пространства. Мы протестировали нашу систему в задаче о похищенном роботе, обучили начальную модель, затем улучшили ее в онлайн режиме и, наконец, решили задачу SLAM.
Бесплатно

Статья
Обработка естественного языка (NLP) — это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1.
Бесплатно

Система поддержки принятия факторинговых решений на основе оптимизированных квантовых алгоритмов QMC
Статья
Непрерывный рост финансовых рынков диктует необходимость для его участников искать новые подходы к финансовому анализу для получения конкурентных преимуществ, в том числе за счет использования новых подходов в области вычислений. Квантовые вычисления могут быть использованы в качестве инструмента по получению данных преимуществ перед конкурентами. В частности моделирование Монте-Карло применяется широко в управлении финансовыми рисками, в то же время, требует значительных вычислительных ресурсов из-за использования большого количества сценариев, необходимых для получения более точного результата. Для оптимизации данного подхода применяются алгоритмы квантовой оценки амплитуды, которые ускоряют данный процесс, если использовать предварительно вычисленные распределения вероятностей для инициализации входных квантовых состояний. Но при отсутствии данных распределений в имеющихся подходах по данной тематике они генерируются численно с использованием классических вычислений, что полностью нивелирует преимущество квантового подхода. В данной статье предлагается решение указанной проблемы путём использования квантовых вычислений, в том числе для генерации распределений вероятностей. Была рассмотрена реализация квантовых схем для моделирования эволюции факторов риска во времени для движения капитала, процентных ставок и кредитных рисков, а также представлено объединение этих моделей с алгоритмами квантовой оценки амплитуды в качестве примера использования полученных алгоритмов для управления кредитными рисками. В завершении статьи проанализирована возможность использования полученных схем в финансовом анализе.
Бесплатно

Статья
Мозг считается одним из наиболее эффективных органов, контролирующих организм. Развитие технологий сделало возможным раннее и точное обнаружение опухолей головного мозга, что существенно влияет на их лечение. Применение искусственного интеллекта значительно возросло в области неврологии. В этом систематическом обзоре сравниваются последние методы глубокого обучения (DL), машинного обучения (ML) и гибридные методы для обнаружения рака мозга. В статье дается оценка 36 недавних статей, посвященных этим методам, с учетом наборов данных, методологии, используемых инструментов, достоинств и ограничений. Статьи содержат понятные графики и таблицы. Обнаружение опухолей головного мозга в значительной степени опирается на методы машинного обучения, такие как метод опорных векторов (SVM) и метод нечетких C-средних (FCM). Рекуррентные сверточные нейронные сети (RCNN), плотная сверточная нейронная сеть (DenseNet), сверточные нейронные сети (CNN), остаточная нейронная сеть (ResNet) и глубокие нейронные сети (DNN) — это методы DL, используемые для более эффективного обнаружения опухолей головного мозга. Методы DL и ML объединяются для разработки гибридных методов. Кроме того, приводится краткое описание различных этапов обработки изображений. Систематический обзор выявляет нерешенные проблемы и будущие цели для методов на основе DL и ML для обнаружения опухолей головного мозга. С помощью систематического обзора можно определить наиболее эффективный метод обнаружения опухолей головного мозга и использовать его для улучшения.
Бесплатно

Случайный лес выживаемости и регрессия Надарая-Уотсона
Статья
В статье представлен случайный лес выживаемости на основе модели внимания (Att-RSF). Первая идея, лежащая в основе леса, состоит в том, чтобы адаптировать ядерную регрессию Надарая-Уотсона к случайному лесу выживаемости таким образом, чтобы веса регрессии или ядра можно было рассматривать как обучаемые веса внимания при важном условии, что предсказания случайного леса выживаемости представлены в виде функций времени, например, функции выживания или кумулятивной функции риска. Каждый обучаемый вес, присвоенный дереву и примеру из обучающей или тестовой выборки, определяется двумя факторами: способностью соответствующего дерева предсказывать и особенностью примера, попадающего в лист дерева. Вторая идея Att-RSF состоит в том, чтобы применить модель загрязнения Хьюбера для представления весов внимания как линейной функции обучаемых параметров внимания. C-индекс Харрелла (индекс конкордации) как показатель качества предсказания случайного леса выживаемости используется при формировании функции потерь для обучения весов внимания. Использование C-индекса вместе с моделью загрязнения приводит к стандартной задаче квадратичной оптимизации для вычисления весов, которая имеет целый ряд простых алгоритмов решения. Численные эксперименты с реальными наборами данных, содержащими данные о выживаемости, иллюстрируют предлагаемую модель Att-RSF.
Бесплатно

Создание прогнозирующих моделей запахов для сред виртуальной реальности
Статья
In a sensory-rich environment, human experiences are shaped by the complex interplay of multiple senses. However, digital interactions predominantly engage visual and auditory modalities, leaving other sensory channels, such as olfaction, largely unutilized. Virtual Reality (VR) technology holds significant potential for addressing this limitation by incorporating a wider range of sensory inputs to create more immersive experiences. This study introduces a novel approach for integrating olfactory stimuli into VR environments through the development of predictive odor models, termed SPRF (Sensory Predictive Response Framework). The objective is to enhance the sensory dimension of VR by tailoring scent stimuli to specific content and context with the collection of information about the location of scent sources and their identification through features to serve to reproduce them in the space of the VR environment, thereby enriching user engagement and immersion. Additionally, the research investigates the influence of various scent-related factors on user perception and behavior in VR, aiming to develop predictive models optimized for olfactory integration. Empirical evaluations demonstrate that the SPRF model achieves superior performance, with an accuracy of 98.13%, significantly outperforming conventional models such as Convolutional Neural Networks (CNN, 79.46%), Long Short-Term Memory (LSTM, 80.37%), and Support Vector Machines (SVM, 85.24%). Additionally, SPRF delivers notable improvements in F1-scores (13.05%-21.38%) and accuracy (12.89%-18.67%) compared to these alternatives. These findings highlight the efficacy of SPRF in advancing olfactory integration within VR, offering actionable insights for the design of multisensory digital environments.
Бесплатно

Статья
Представлено сравнение дискретных скрытых марковских моделей и свёрточных нейронных сетей для классификации изображений. После разбивки изображений на части целесообразно получить векторы, которые представляют локальные визуальные структуры, одновременно определяющие изображения глобально через пространственную последовательность. С использованием методов кластеризации создается алфавит из указанных векторов, а затем конструируются последовательности символов, которые описывают статистические модели, соответствующие классам изображений. Скрытые марковские модели в сочетании с методами квантования могут обрабатывать шум и искажения в наблюдениях для решения проблем компьютерного зрения, таких как классификация изображений с изменением освещения и перспективы. Протестированы архитектуры, основанные на трех, шести и девяти скрытых состояниях, в пользу скорости обнаружения и низкого использования памяти. Также были протестированы два типа ансамблевых моделей. Точность предлагаемого метода была оценена с помощью общедоступных данных; полученные результаты оказались сравнимы с известными оценками при использовании тонко настроенных свёрточных нейронных сетей, но требовали значительно меньших вычислительных ресурсов. Результат представляет интерес при разработке мобильных роботов с вычислительными устройствами, имеющими ограниченное время автономной работы, но требующими способности обнаруживать и добавлять новые объекты в свои системы классификации.
Бесплатно

Статья
Повторная идентификация людей (ReID) играет ключевую роль в современном видеонаблюдении, обеспечивая непрерывное отслеживание людей по различным камерам видеонаблюдения и повышая эффективность систем общественной безопасности. Однако повторная идентификация людей на реальных записях камер видеонаблюдения сопряжена с определенными трудностями, включая изменения углов обзора камеры, вариации освещения, частичные окклюзии и схожий внешний вид людей. В этой статье мы предлагаем надежную структуру глубокого обучения, которая использует сверточные нейронные сети (CNNs) с настраиваемой функцией потери триплетов для преодоления этих препятствий и повышения точности повторной идентификации. Система разработана таким образом, чтобы генерировать уникальные векторные представления признаков для отдельных людей, что позволяет точно различать их даже в сложных условиях окружающей среды. Чтобы подтвердить правильность нашего подхода, мы проводим обширные оценки на эталонных наборах данных ReID, достигая передовых результатов как по точности, так и по скорости обработки. Эффективность нашей модели оценивается с использованием ключевых метрик, включая кумулятивную характеристику соответствия (CMC) и среднюю точность (mAP), что демонстрирует ее надежность в различных сценариях наблюдения. По сравнению с существующими методами, наш подход неизменно превосходит их как по точности, так и по масштабируемости, что делает его пригодным для интеграции в крупномасштабные системы видеонаблюдения. Кроме того, мы обсуждаем практические аспекты по внедрению моделей ReID на основе ИИ в инфраструктуру видеонаблюдения, включая масштабируемость системы, возможности работы в режиме реального времени и вопросы конфиденциальности. Совершенствуя методы повторной идентификации людей, эта работа не только вносит вклад в область интеллектуального наблюдения, но и обеспечивает основу для повышения общественной безопасности в реальных приложениях с помощью автоматизированных и надежных возможностей отслеживания.
Бесплатно

Статья
Депрессия – это распространенное психическое заболевание, требующее систем автоматического обнаружения из-за своей сложности. Существующие методы машинного обучения сталкиваются с проблемами, такими как чувствительность к фоновому шуму, медленная скорость адаптации и несбалансированные данные. Для устранения этих ограничений в этом исследовании предлагается новая структура модулированного вейвлет-кепстрального слияния и стохастическая структура встраивания для прогнозирования депрессии. Затем техника модулированных волновых функций удаляет фоновый шум и нормализует аудиосигналы. Трудности с обобщением, которые приводят к отсутствию интерпретируемости, затрудняют извлечение соответствующих характеристик речи. Для решения этих проблем используется автоматическое кепстральное слияние, которое извлекает соответствующие характеристики речи, захватывая временные и спектральные характеристики, вызванные фоновым голосом. Выбор признаков становится важным, когда выбираются релевантные признаки для классификации. Выбор нерелевантных признаков может привести к переобучению, нарушению размерности и меньшей устойчивости к шуму. Поэтому метод стохастической иммерсии справляется с высокоразмерными данными, минимизируя влияние шума и размерности. Кроме того, классификатор XGBoost отличает людей с депрессией и людей без депрессии. В результате предложенный метод использует набор данных DAIC-WOZ Университета Южной Калифорнии для обнаружения депрессий, достигая точности 97,02%, прецизионности 97,02%, полноты 97,02%, оценки F1 97,02%, среднеквадратической ошибки 2,00 и средней абсолютной ошибки 0,9, делая его многообещающим инструментом для автономного обнаружения депрессии.
Бесплатно

Формализация регулятивных текстов
Статья
Современные информационные технологии с высокой эффективностью обеспечивают процессы манипулирования текстами. В первую очередь это хранение, редактирование и форматирование текстов и их составляющих. Добившись значительных успехов в разработке средств бессодержательной компьютерной обработки текстов, исследователи столкнулись с проблемами их содержательной обработки. Поэтому дальнейшие шаги в этом направлении связаны с созданием, в том числе, методов автоматизированного целенаправленного манипулирования текстами с учетом заложенного в них содержания. Проведен анализ работ, посвященных исследованию проблем формального представления текстов и их последующего использования. Несмотря на ряд успешных проектов, задачи по разрешению проблемы соотношений между содержанием текста и его смыслом остаются актуальными. По-видимому, формализация текста общего назначения при сохранении его семантики на данном этапе развития науки не осуществима. Вместе с тем существуют типы текстов, для которых формализация с сохранением существенной части их семантики представляется возможной. Одним из них является регулятивный тип текста, который по существу представляет собой словесно выраженный алгоритм последовательности целенаправленных действий. Его отличают логичность и точность (отсутствие иносказаний), связность и цельность, ясность, понятность (за счет отсутствия эмоциональной окраски и образных средств), доступность (за счет использования специфической терминологии). Иначе говоря, при разработке регулятивных текстов обычно стараются как можно понятнее отображать механизмы описываемых действий. Цель: разработка метода формализации регулятивного текста с сохранением его семантики. Методы: структурная лингвистика, представление объектов в виде онтологии, конструктивные алгоритмы. Использование данного метода демонстрируется на примере описания решения системы алгебраических уравнений. Результаты: метод построения математической модели регулятивного текста. Практическая значимость: применение разработанного метода обеспечивает возможность разработки программных комплексов для построения библиотек отдельных предметных областей, разработки средств оценки регулятивных текстов на предмет их определенности, полноты, связности и других характеристик, а также тренажеров и средств самообучения.
Бесплатно

Цветовая кодировка кубитных состояний
Статья
Трудности алгоритмической имитации естественного мышления указывают на несовершенство используемых для этого форматов представления информации. В этом отношении перспективна кодировка информации кубитными состояниями квантовой теории, структура которых согласуется с крупными теориями когнитивной семантики. Представлено развитие этого подхода, связывающее кубитные состояния с цветом как самостоятельным носителем эмоционально-смысловых значений. Основой для этого стало геометрическое подобие цветовых тел и Гильбертова пространства кубитных состояний, позволившее установить между ними взаимооднозначное математическое отображение. Для этого использовано оригинальное разложение кубита по тройке неортогональных векторов, соответствующих красному, синему и зелёному цветам. Действительные коэффициенты такого разложения являются томограммами кубитного состояния по соответствующим направлениям, связанными с компонентами вектора Стокса операцией поворота. При этом композиционные соотношения чёрного, белого и шести основных цветов (красный, зелёный, синий, жёлтый, фиолетовый, голубой) выражаются аналогичными суперпозициями кубитных состояний. Чистые и смешанные цвета соответствуют чистым и смешанным состояниям на поверхности и внутри сферы Блоха, тогда как оттенки серого отображаются на вертикальный диаметр сферы. При этом светлость цвета соответствует вероятности базисного кубитного состояния «1», тогда как насыщенность цвета и цветовой тон кодируют когерентность и фазу кубитного состояния. Полученный результат открывает возможности для использования квантовой информатики в задачах семантического анализа данных, обработки изображений и создания природоподобных вычислительных архитектур.
Бесплатно

Статья
Целью исследования является получение более легковесной языковой модели, которая сравнима по показателям EM и F-меры с лучшими современными языковыми моделям в задаче нахождения ответа на вопрос в тексте на русском языке. Результаты работы могут найти применение в различных вопросно-ответных системах, для которых важно время отклика. Поскольку более легковесная модель имеет меньшее количество параметров чем оригинальная, она может быть использована на менее мощных вычислительных устройствах, в том числе и на мобильных устройствах. В настоящей работе используются методы обработки естественного языка, машинного обучения, теории искусственных нейронных сетей. Нейронная сеть настроена и обучена с использованием библиотек машинного обучения Torch и Hugging face. В работе было проведено обучение модели DistilBERT на наборе данных SberQUAD с применением дистилляции и без. Произведено сравнение работы полученных моделей.Обученная в ходе дистилляции модель DistilBERT (EM 58,57 и F-мера 78,42) смогла опередить результаты более крупной генеративной сети ruGPT-3-medium (EM 57,60 и F-мера 77,73) притом, что ruGPT-3-medium имеет в 6,5 раз больше параметров. Также модель продемонстрировала лучшие показатели EM и F-мера, чем та же модель, но к которой применялось только обычное дообучение без дистилляции (EM 55,65, F-мера 76,51). К сожалению, полученная модель сильнее отстаёт от более крупной дискриминационной модели ruBERT (EM 66,83, F-мера 84,95), которая имеет в 3,2 раза больше параметров. Предложены направления для дальнейшего исследования.
Бесплатно

Статья
В работе представлена эффективная реализация банка гамматон-фильтров (БГФ) на основе неравнополосного косинусно-модулированного банка фильтров (НКМБФ), использующего фазовое преобразование. Рассмотрены примеры практических задач, в которых применяется банк гамматон-фильтров, проанализированы его основные особенности и недостатки. Приведено описание равнополосного косинусно-модулированного банка фильтров, а также показан процесс синтеза НКМБФ из его равнополосного аналога при помощи фазового преобразования. Разработан оптимизационный метод проектирования фильтра-прототипа НКМБФ для аппроксимации частотных характеристик БГФ. В основе метода лежит мультипликативная модель импульсной характеристики фильтра-прототипа, использующая логистические сигмоидальные функции. Суть предлагаемого метода заключается в оптимизации фильтра-прототипа с целью минимизации среднеквадратичной ошибки между АЧХ БГФи НКМБФ для каждого канала. Выполнена программная реализация на языке Python с использованием библиотеки PyTorch. Проведены экспериментальные исследования предложенного метода. Результаты экспериментов показали, что НКМБФ можно использовать для аппроксимации частотных характеристик БГФ, а результирующая АЧХ имеет монотонные спады за счёт использования логистических сигмоидальных функций. Проведён анализ зависимости результирующей ошибки аппроксимации частотных характеристик банка гамматон-фильтров от количества сигмоид, используемых для синтеза фильтра-прототипа НКМБФ на базе мультипликативной модели импульсной характеристики. Выполнен анализ вычислительной сложности НКМБФ, показано как зависит число операций сложения и умножения от длины импульсной характеристики фильтра-прототипа и числа каналов банка фильтров. Сделан вывод, что использование НКМБФ для реализации банка гамматон-фильтров позволяет существенно уменьшить вычислительные затраты на реализацию гамматон-фильтров по сравнению с прямой реализацией.
Бесплатно

Статья
Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации.
Бесплатно