О декомпозиции метода построения энкодера языковой модели
Автор: Трофимов Игорь Владимирович
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Искусственный интеллект и машинное обучение
Статья в выпуске: 1 (56) т.14, 2023 года.
Бесплатный доступ
Энкодер в составе языковой модели является механизмом преобразования текстовой информации в эффективное числовое представление, пригодное для решения широкого круга задач обработки текста при помощи нейросетевых методов. В данной статье предложен способ декомпозиции процесса обучения языкового энкодера. Рассматриваются вопросы целесообразности такой декомпозиции с точки зрения снижения вычислительных затрат, контроля качества на промежуточных стадиях обучения, обеспечения интерпретируемости результатов каждой стадии. Приводятся оценки качества энкодера.
Обработка естественного языка, нейронные сети, языковая модель, энкодер, контекстно-зависимые представления, разрешение лексической неоднозначности
Короткий адрес: https://sciup.org/143180113
IDR: 143180113 | DOI: 10.25209/2079-3316-2023-14-1-31-54
Список литературы О декомпозиции метода построения энкодера языковой модели
- Devlin J., Chang M-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for language understanding.– 2018.– 16 pp. arXivarXiv 1810.04805 https://doi.org/10.48550/arXiv.1810.04805
- Raffel C., Shazeer N., Roberts A., Lee K., Narang Sh., Matena M., Zhou Ya., Li W., Liu P. J. Exploring the limits of transfer learning with a unified text-to-text transformer.– 2020.– 67 pp. arXivarXiv 1910.10683 https://doi.org/10.48550/arXiv.1910.10683
- Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal S., Herbert-Voss A., Krueger G., Henighan T., Child R., Ramesh A., Ziegler D. M., Wu J., Winter C., Hesse Ch., Chen M., Sigler E., Litwin M., Gray S., Chess B., Clark J., Berner Ch., McCandlish S., Radford A., Sutskever I., Amodei D. Language models are few-shot learners.– 2020.– 75 pp. arXivarXiv 2005.14165 https://doi.org/10.48550/arXiv.2005.14165
- Fedus W., Zoph B., Shazeer N. Switch transformers: scaling to trillion parameter models with simple and efficient sparsity.– 2021.– 40 pp. arXivarXiv 2101.03961 https://doi.org/10.48550/arXiv.2101.03961
- Kolesnikova A., Kuratov Y., Konovalov V., Burtsev M. Knowledge distillation of Russian language models with reduction of vocabulary, Proceedings of the International Conference «Dialogue 2022» (Moscow, June 15–18, 2022), Computational Linguistics and Intellectual Technologies.– vol. 21.– 2022.– ISBN 978-5-7281-3205-9.– pp. 295–310 . hUtRtpLs://www.dialog-21.rhut/tpmse:/d/iad/o5i.7o7r0g/k1o0l.e2s8n9i9k5o/v2a0a7p5lu-7s1et8a2l-023062.2p-d2f1-295-310 arXivarXiv 2205.02340 https://doi.org/10.48550/arXiv.2205.02340
- Zafrir O., Boudoukh G., Izsak P., Wasserblat M. Q8bert: Quantized 8bit bert, 2019 Fifth Workshop on Energy Efficient Machine Learning and Cognitive Computing – NeurIPS Edition (EMC2-NIPS) (13 December 2019, Vancouver, BC, Canada).– 2019.– pp. 36–39. https://doi.org/10.1109/EMC2-NIPS53020.2019.00016 arXivarXiv 1910.06188
- Clark K., Luong M. -T., Le Q. V., Manning Ch. D. Electra: Pre-training text encoders as discriminators rather than generators.– 2020.– 18 pp. arXivarXiv 2003.10555 https://doi.org/10.48550/arXiv.2003.10555
- Kudo T., Richardson J. SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.– 2018.– 6 pp. arXivarXiv 1808.06226 https://doi.org/10.48550/arXiv.1808.06226
- Sennrich R., Haddow B., Birch A. Neural machine translation of rare words with subword units.– 2016.– 11 pp. arXivarXiv 1508.07909 https://doi.org/10.48550/arXiv.1508.07909
- Schuster M., Nakajima K. Japanese and Korean voice search, 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (25–30 March 2012, Kyoto, Japan).– 2012.– pp. 5149–5152. https://doi.org/10.1109/ICASSP.2012.6289079
- Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space.– 2013.– 12 pp. arXivarXiv 1301.3781 https://doi.org/10.48550/arXiv.1301.3781
- Trofimov I. V., Suleymanova E. A. A syntax-based distributional model for discriminating between semantic similarity and association, Proceedings of the International Conference «Dialogue 2017».– V. 1, Computational Linguistics and Intellectual Technologies.– vol. 16.– 2017.– pp. 349–359. hUtRtpLs://www.dialog-21.r[Ru/SmCeI]dia/3958/trofimovivsuleymanovaea.pdf
- Трофимов И. В., Сулейманова Е. А. Дистрибутивно-семантическая модель для выявления категориального сходства // Программные системы: теория и приложения.– 2018.– Т. 9.– №4(39).– с. 443–460. hUtRtpL://psta.psiras.ru/rehatdt/ppss:/ta/2d0o1i.8o_rg4/_1404.235-2406[90Р/.pИ2d0Нf7Ц9-]3316-2018-9-4-443-460
- Власова Н. А., Трофимов И. В., Сердюк Ю.П., Сулейманова Е. А., Воздвиженский И. Н. PaRuS — синтаксически аннотированный корпус русского языка // Программные системы: теория и приложения.– 2019.– Т. 10.– №4(43).– с. 181–199. hUtRtpL://psta.psiras.ru/rehatdt/ppss:/ta/2d0o1i.9o_rg4/_1108.215-2109[9Р/.pИ2d0Нf7Ц9-]3316-2019-10-4-181-199
- Panchenko A., Lukashevich N. V., Ustalov D., Paperno D., Meyer K. M., Konstantinova N. RUSSE: The first workshop on Russian semantic similarity, Proceedings of the International Conference «Dialogue 2015».– V. 2, Computational Linguistics and Intellectual Technologies.– vol. 14.– RGGU.– 2015.– pp. 89–105. hUtRtpL://www.dialog-21.ruh/ttmpes:d/i/ad/o1i1.2o3rg//p1a0n.c4h8e5n5k0o/aaertXailv.p.1d8f03.05820
- Трофимов И. В., Сулейманова Е. А., Власова Н. А., Подобряев А. В. Разрешение событийно-несобытийной неоднозначности существительных // Программные системы: теория и приложения.– 2018.– Т. 9.– №4(39).– с. 3–33. hUtRtpL://psta.psiras.ru/rehatdt/ppss:/ta/2d0o1i.8o_rg4/_130-.23532.p0d[9Рf/И20Н7Ц9-]3316-2018-9-4-3-33
- Трофимов И. В., Сердюк Ю.П., Сулейманова Е. А., Власова Н. А. Разрешение событийно-несобытийной неоднозначности существительных: нейросетевой подход // Программные системы: теория и приложения.– 2020.– Т. 11.– №4(47).– с. 31–53. UhtRtpL://psta.psiras.ru/re[aРdИ/pНsЦta]2020_4_31-53h.tptpdsf://doi.org/10.25209/2079-3316-2020-11-4-31-53
- Kuratov Yu., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language.– 2019.– 8 pp. arXivarXiv 1905.07213 https://doi.org/10.48550/arXiv.1905.07213
- Сорокин А. А., Макогонов С. В., Королев С. П. Информационная инфраструктура для коллективной работы ученых Дальнего Востока России // Научно-техническая информация. Серия 1: Организация и методика информационной работы.– 2017.– №12.– с. 14—16. [РИНЦ]