Эффективный алгоритм классификации естественного языка обнаружения повторяющихся контролируемых признаков

Сауд Алтаф; Sofia Iqbal; Muhammad Waseem Soomro

doi:10.15622/ia.2021.3.5

Scientific articles \ Prolegomena. Fundamentals of knowledge and culture. Propaedeutics \ Standardization of products, operations, weights, measures and time

Эффективный алгоритм классификации естественного языка обнаружения повторяющихся контролируемых признаков

Author: Сауд Алтаф, Sofia Iqbal, Muhammad Waseem Soomro

Journal: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras

Section: Искусственный интеллект, инженерия данных и знаний

Article in issue: Том 20 № 3, 2021.

Free access

Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации.

Кластеризация, информационный поиск, функция TF-IDF, Par2Vec, тексты на естественном языке, лексические подходы

Short address: https://sciup.org/14127330

IDR: 14127330 | UDC: 006.72 | DOI: 10.15622/ia.2021.3.5