Многозадачное обучение для улучшения генерализации в задаче генерации структурированных запросов
Автор: Сомов О.Д.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Информатика и управление
Статья в выпуске: 2 (62) т.16, 2024 года.
Бесплатный доступ
Семантический парсинг - это задача перевода выражения на естественном языке в логическое выражение на формальном языке. Примером практического применения семантического парсинга является преобразование текста в запрос к базе знаний. Наиболее популярными задачами преобразования текста в запрос являются задачи преобразования выражения в SQL и в SPARQL. Сдвиг распределения обучающей выборки - одна из главных проблем устойчивости семантических парсеров. Наиболее частым сдвигом в семантическом парсинге является композиционный сдвиг - необходимость генерации новых композиций кода из известных элементов синтаксиса целевого языка. В этой работе исследуется возможность использования предобученных языковых моделей (PLM) вместе с многозадачным обучением. Предлагаются специально разработанные разбиения наборов данных SPARQL и SQL, исходных датасетов LC-QuAD и WikiSQL для имитации сдвига распределения и сравнения оригинального подхода обучения генерации запроса с многозадачным подходом. В работе проведен углубленный анализ разбиений данных и предсказаний модели и показаны преимущества многозадачного подхода над оригинальным для задачи семантического парсинга.
Семантический парсинг, сдвиг распределения, многозадачное обучение
Короткий адрес: https://sciup.org/142242126
IDR: 142242126
Список литературы Многозадачное обучение для улучшения генерализации в задаче генерации структурированных запросов
- Zhong V. [et al.]. Seq2sql: Generating structured queries from natural language using reinforcement learning // arXiv preprint. [2017]. arXiv: 1709.00103.
- Shaw P. [et al.]. Compositional generalization and natural language variation: Can a semantic parsing approach handle both? // arXiv preprint. [2020]. arXiv: 2010.12725.
- Hupkes D. [et al.]. Compositionalitv decomposed: How do neural networks generalise? // JAIR. 2020. V. 67. P. 757-795.
- Worsham J. [et al.]. Multi-task learning for natural language processing in the 2020s: Where are we going? // Pattern Recognition Letters. 2020. V. 136. P. 120-126.
- Dubey M. [et al.]. Lc-quad 2.0: A large dataset for complex question answering over wikidata and dbpedia // ISWC. 2019. V. 2. P. 69-78.
- Raffel C. [et al.]. Exploring the limits of transfer learning with a unified text-to-text transformer // JMLR. 2020. V. 21(1). P. 5485-5551.
- Bakshandaeva D. [et al.]. PAUQ: Text-to-SQL in Russian // EMNLP. 2022. V. 2022. P. 2355-2376.