О декомпозиции метода построения энкодера языковой модели

Автор: Трофимов Игорь Владимирович

Журнал: Программные системы: теория и приложения @programmnye-sistemy

Рубрика: Искусственный интеллект и машинное обучение

Статья в выпуске: 1 (56) т.14, 2023 года.

Бесплатный доступ

Энкодер в составе языковой модели является механизмом преобразования текстовой информации в эффективное числовое представление, пригодное для решения широкого круга задач обработки текста при помощи нейросетевых методов. В данной статье предложен способ декомпозиции процесса обучения языкового энкодера. Рассматриваются вопросы целесообразности такой декомпозиции с точки зрения снижения вычислительных затрат, контроля качества на промежуточных стадиях обучения, обеспечения интерпретируемости результатов каждой стадии. Приводятся оценки качества энкодера.

Обработка естественного языка, нейронные сети, языковая модель, энкодер, контекстно-зависимые представления, разрешение лексической неоднозначности

Короткий адрес: https://sciup.org/143180113

IDR: 143180113 | DOI: 10.25209/2079-3316-2023-14-1-31-54

Список литературы О декомпозиции метода построения энкодера языковой модели

Devlin J., Chang M-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for language understanding.– 2018.– 16 pp. arXivarXiv 1810.04805 https://doi.org/10.48550/arXiv.1810.04805
Raffel C., Shazeer N., Roberts A., Lee K., Narang Sh., Matena M., Zhou Ya., Li W., Liu P. J. Exploring the limits of transfer learning with a unified text-to-text transformer.– 2020.– 67 pp. arXivarXiv 1910.10683 https://doi.org/10.48550/arXiv.1910.10683
Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal S., Herbert-Voss A., Krueger G., Henighan T., Child R., Ramesh A., Ziegler D. M., Wu J., Winter C., Hesse Ch., Chen M., Sigler E., Litwin M., Gray S., Chess B., Clark J., Berner Ch., McCandlish S., Radford A., Sutskever I., Amodei D. Language models are few-shot learners.– 2020.– 75 pp. arXivarXiv 2005.14165 https://doi.org/10.48550/arXiv.2005.14165
Fedus W., Zoph B., Shazeer N. Switch transformers: scaling to trillion parameter models with simple and efficient sparsity.– 2021.– 40 pp. arXivarXiv 2101.03961 https://doi.org/10.48550/arXiv.2101.03961
Kolesnikova A., Kuratov Y., Konovalov V., Burtsev M. Knowledge distillation of Russian language models with reduction of vocabulary, Proceedings of the International Conference «Dialogue 2022» (Moscow, June 15–18, 2022), Computational Linguistics and Intellectual Technologies.– vol. 21.– 2022.– ISBN 978-5-7281-3205-9.– pp. 295–310 . hUtRtpLs://www.dialog-21.rhut/tpmse:/d/iad/o5i.7o7r0g/k1o0l.e2s8n9i9k5o/v2a0a7p5lu-7s1et8a2l-023062.2p-d2f1-295-310 arXivarXiv 2205.02340 https://doi.org/10.48550/arXiv.2205.02340
Zafrir O., Boudoukh G., Izsak P., Wasserblat M. Q8bert: Quantized 8bit bert, 2019 Fifth Workshop on Energy Efficient Machine Learning and Cognitive Computing – NeurIPS Edition (EMC2-NIPS) (13 December 2019, Vancouver, BC, Canada).– 2019.– pp. 36–39. https://doi.org/10.1109/EMC2-NIPS53020.2019.00016 arXivarXiv 1910.06188
Clark K., Luong M. -T., Le Q. V., Manning Ch. D. Electra: Pre-training text encoders as discriminators rather than generators.– 2020.– 18 pp. arXivarXiv 2003.10555 https://doi.org/10.48550/arXiv.2003.10555
Kudo T., Richardson J. SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.– 2018.– 6 pp. arXivarXiv 1808.06226 https://doi.org/10.48550/arXiv.1808.06226
Sennrich R., Haddow B., Birch A. Neural machine translation of rare words with subword units.– 2016.– 11 pp. arXivarXiv 1508.07909 https://doi.org/10.48550/arXiv.1508.07909
Schuster M., Nakajima K. Japanese and Korean voice search, 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (25–30 March 2012, Kyoto, Japan).– 2012.– pp. 5149–5152. https://doi.org/10.1109/ICASSP.2012.6289079
Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space.– 2013.– 12 pp. arXivarXiv 1301.3781 https://doi.org/10.48550/arXiv.1301.3781
Trofimov I. V., Suleymanova E. A. A syntax-based distributional model for discriminating between semantic similarity and association, Proceedings of the International Conference «Dialogue 2017».– V. 1, Computational Linguistics and Intellectual Technologies.– vol. 16.– 2017.– pp. 349–359. hUtRtpLs://www.dialog-21.r[Ru/SmCeI]dia/3958/trofimovivsuleymanovaea.pdf
Трофимов И. В., Сулейманова Е. А. Дистрибутивно-семантическая модель для выявления категориального сходства // Программные системы: теория и приложения.– 2018.– Т. 9.– №4(39).– с. 443–460. hUtRtpL://psta.psiras.ru/rehatdt/ppss:/ta/2d0o1i.8o_rg4/_1404.235-2406[90Р/.pИ2d0Нf7Ц9-]3316-2018-9-4-443-460
Власова Н. А., Трофимов И. В., Сердюк Ю.П., Сулейманова Е. А., Воздвиженский И. Н. PaRuS — синтаксически аннотированный корпус русского языка // Программные системы: теория и приложения.– 2019.– Т. 10.– №4(43).– с. 181–199. hUtRtpL://psta.psiras.ru/rehatdt/ppss:/ta/2d0o1i.9o_rg4/_1108.215-2109[9Р/.pИ2d0Нf7Ц9-]3316-2019-10-4-181-199
Panchenko A., Lukashevich N. V., Ustalov D., Paperno D., Meyer K. M., Konstantinova N. RUSSE: The first workshop on Russian semantic similarity, Proceedings of the International Conference «Dialogue 2015».– V. 2, Computational Linguistics and Intellectual Technologies.– vol. 14.– RGGU.– 2015.– pp. 89–105. hUtRtpL://www.dialog-21.ruh/ttmpes:d/i/ad/o1i1.2o3rg//p1a0n.c4h8e5n5k0o/aaertXailv.p.1d8f03.05820
Трофимов И. В., Сулейманова Е. А., Власова Н. А., Подобряев А. В. Разрешение событийно-несобытийной неоднозначности существительных // Программные системы: теория и приложения.– 2018.– Т. 9.– №4(39).– с. 3–33. hUtRtpL://psta.psiras.ru/rehatdt/ppss:/ta/2d0o1i.8o_rg4/_130-.23532.p0d[9Рf/И20Н7Ц9-]3316-2018-9-4-3-33
Трофимов И. В., Сердюк Ю.П., Сулейманова Е. А., Власова Н. А. Разрешение событийно-несобытийной неоднозначности существительных: нейросетевой подход // Программные системы: теория и приложения.– 2020.– Т. 11.– №4(47).– с. 31–53. UhtRtpL://psta.psiras.ru/re[aРdИ/pНsЦta]2020_4_31-53h.tptpdsf://doi.org/10.25209/2079-3316-2020-11-4-31-53
Kuratov Yu., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language.– 2019.– 8 pp. arXivarXiv 1905.07213 https://doi.org/10.48550/arXiv.1905.07213
Сорокин А. А., Макогонов С. В., Королев С. П. Информационная инфраструктура для коллективной работы ученых Дальнего Востока России // Научно-техническая информация. Серия 1: Организация и методика информационной работы.– 2017.– №12.– с. 14—16. [РИНЦ]

Еще

Статья научная