Эффективный алгоритм классификации естественного языка обнаружения повторяющихся контролируемых признаков
Автор: Сауд Алтаф, Sofia Iqbal, Muhammad Waseem Soomro
Журнал: Информатика и автоматизация (Труды СПИИРАН).
Рубрика: Искусственный интеллект, инженерия данных и знаний
Статья в выпуске: Том 20 № 3, 2021 года.
Бесплатный доступ
Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации.
Кластеризация, информационный поиск, функция TF-IDF, Par2Vec, тексты на естественном языке, лексические подходы
Короткий адрес: https://sciup.org/14127330
IDR: 14127330 | DOI: 10.15622/ia.2021.3.5