Использование графовых и текстовых баз знаний в диалоговом ассистенте Dream

Автор: Евсеев Д.А., Бурцев М.С.

Журнал: Труды Московского физико-технического института @trudy-mipt

Статья в выпуске: 3 (55) т.14, 2022 года.

Бесплатный доступ

В работе описываются компоненты диалогового ассистента DREAM для извлечения сущностей из реплики пользователя, связывания сущностей с базой знаний и извлечения фактов из базы знаний для формирования ответной реплики. Компонент для извлечения сущностей находит в реплике пользователя подстроки, соответствующие сущностям. Далее, для найденных подстрок выполняется поиск ids соответствующих сущностей в Wikidata и названий страниц Википедии. Производится запрос в базу знаний по ids сущностей для извлечения фактов: триплетов Wikidata и параграфов Википедии. В случае, если реплика пользователя является фактоидным вопросом, факты используются в вопросно-ответных компонентах по графу знаний (KBQA) и по тексту (ODQA). Параграфы страницы Википедии используются в сценарном навыке для обсуждения интересующей пользователя сущности (DFF Wiki Skill), а также в навыке на основе генеративной модели (Knowledge Grounding Skill). Применение баз знаний в диалоговом ассистенте позволяет проводить анализ реплики пользователя и генерировать интересные и содержательные реплики.

Еще

Извлечение сущностей, связывание сущностей с базой знаний, граф знаний, вопросно-ответная система, диалоговый ассистент

Короткий адрес: https://sciup.org/142236619

IDR: 142236619

Список литературы Использование графовых и текстовых баз знаний в диалоговом ассистенте Dream

Konrad J., Pichl J., Marek P., Lorenc P., Та V.D., Kobza O., Hylova L., Sedivy J. Alquist 4.0: Towards social intelligence using generative models and dialogue personalization // arXiv preprint arXiv:2109.07968. 2021.
Chi E.A., Chiam C., Chang Т., Lim S.K., Rastogi C., Iyabor A. [et al.\. Neural, neural everywhere: Controlled generation meets scaffolded, structured dialogue // Alexa Prize Proceedings. 2021.
Saha S., Das S., Soper E., Pacquetet E., Srihari R.K. Proto: A Neural Cocktail for Generating Appealing Conversations // arXiv preprint arXiv:2109.02513. 2021.
Finch S.E., Finch J.D., Huryn D., Hutsell W., Huang X., He H., Choi J.D. An Approach to Inference-Driven Dialogue Management within a Social Chatbot // arXiv preprint arXiv:2111.00570. 2021.
Vrandecic D., Krotzsch M. Wikidata: a free collaborative knowledgebase // Communications of the ACM. 2014. V. 57, N 10. P. 78-85.
Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyano, V. Roberta: A robustly optimized bert pretraining approach // arXiv preprint arXiv:1907.11692. 2019.
Devlin J., Chang M.W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Volume 1 (Long and Short Papers). 2019. P. 4171-4186.
Roller S., Dinan E., Goyal N., Ju D., Williamson M., Liu Y., Ott M., Shuster K., Smith E.M. [et al.\. Recipes for building an open-domain chatbot // arXiv preprint arXiv:2004.13637. 2020.
Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser L., Polosukhin I. Attention is all you need // Advances in neural information processing systems. 2017. V. 30.
Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. 1997. V. 9, N 8. P. 1735-1780.
Paranjape A., See A., Kenealy K., Li H., Hardy A., Qi P. [et al.\. Neural generation meets real people: Towards emotionally engaging mixed-initiative conversations // arXiv preprint arXiv:2008.12348. 2020.
Manning C.D., Surdeanu M., Bauer J., Finkel J.R., Bethard S., McClosky D. The Stanford CoreNLP natural language processing toolkit // Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations. 2014. P. 55-60.
Broscheit S. Investigating entity knowledge in BERT with simple neural end-to-end entity linking // Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL). 2019. P. 677-685.
Dozat Т., Manning C.D. Deep biaffine attention for neural dependency parsing // arXiv preprint arXiv:1611.01734. 2016.
Aho A.V., Corasick M.J. Efficient string matching: an aid to bibliographic search // Communications of the ACM. 1975. V. 18, N 6. P. 333-340.
Liang K., Chau A., Li Y., Lu X., Yu D., Zhou M., Jain I., Davidson S., Arnold J., Nguyen M., Yu, Z. Gunrock 2.0: A user adaptive social conversational system // arXiv preprint arXiv:2011.08906. 2020.
Huang Z., Xu W., Yu K. Bidirectional LSTM-CRF models for sequence tagging // arXiv preprint arXiv:1508.01991. 2015.
Zhang Y., Sun S., Galley M., Chen Y.C., Brockett C., Gao X., Gao J., Liu J., Dolan, B. Dialogpt: Large-scale generative pre-training for conversational response generation // arXiv preprint arXiv:1911.00536. 2019.
Dinan E., Roller S., Shuster K., Fan A., Auli M., Weston, J. Wizard of wikipedia: Knowledge-powered conversational agents // arXiv preprint arXiv:1811.01241. 2018.
Karpukhin V., Oguz B., Min S., Lewis P., Wu L., Edunov S., Chen D., Yih W.T. Dense passage retrieval for open-domain question answering // arXiv preprint arXiv:2004.04906. 2020.
Reimers N., Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks // arXiv preprint arXiv:1908.10084. 2019.
Evseev D. A., Arkhipov M. Y. Sparql query generation for complex question answering with bert and bilstm-based model // Computational Linguistics and Intellectual Technologies. 2020. P. 270-282.
Dubey M., Banerjee D., Abdelkawi A., Lehmann J. Lc-quad 2.0: A large dataset for complex question answering over wikidata and dbpedia // International semantic web conference. Springer, Cham. 2019. P. 69-78.
Rajpurkar P., Zhang J., Lopyrev K., Liang P. Squad: 100,000+ questions for machine comprehension of text // arXiv preprint arXiv:1606.05250. 2016.

Еще

Статья научная