Распознавание идиоматического использования выражений с помощью нейронных сетей
Автор: Сердюк Юрий Петрович, Власова Наталья Александровна
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Искусственный интеллект, интеллектуальные системы, нейронные сети
Статья в выпуске: 3 (50) т.12, 2021 года.
Бесплатный доступ
Многие идиоматические выражения могут использоваться не только в~переносном смысле, но и в прямом. Распознавание того или иного случая их употребления является важной задачей во многих приложениях обработки текстов на естественном языке, в частности, в машинном переводе. В~настоящей работе предлагается автоматический способ распознавания прямого и переносного использования идиоматических выражений на основе анализа их локальных контекстов с помощью рекуррентных нейронных сетей. Исследованы два типа таких сетей для решения данной задачи --- обычные рекуррентные нейросети и двунаправленные их модификации. Рассмотрены варианты представления слов контекста как в виде нормальных форм,так и виде словоформ, встретившихся в тексте. Описаны способ построения и характеристики дистрибутивной модели, в которой хранятся векторные представления слов и целевых идиоматических выражений. В заключение мы даем обзор наиболее важных работ по данной проблематике.
Идиоматические выражения, нейронные сети, рекуррентные нейронные сети, векторные представления слов и выражений, распознавание именованных сущностей
Короткий адрес: https://sciup.org/143178112
IDR: 143178112 | DOI: 10.25209/2079-3316-2021-12-3-3-26
Список литературы Распознавание идиоматического использования выражений с помощью нейронных сетей
- A. Fazly, P. Cook, S. Stevenson. “Unsupervised type and token identification of idiomatic expressions”, Computational Linguistics, 35:1 (2009), pp. 61–103.
- L. Li, C. Sporleder. “Classifier combination for contextual idiom detection without labebelled data”, Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (Singapore, 6–7 August 2009), ACL, 2009, pp. 315–323.
- Ю.Г. Бадрызлова. Автоматические методы распознавания метафоры в текстах на русском языке, Дис. . . . канд. фил. наук, НИУ «Высшая школа экономики», М., 2019 (Англ.), 206 с.
- G. Katz, E. Giesbrecht. “Automatic identification of non-compositional multiword expressions using Latent Semantic Analysis”, Proceedings of the Workshop on Multiword Expressions: Identifying and Exploiting Underlying Properties (Sydney, July 2006), ACL, 2006, pp. 12–19.
- K. Aharodnik, A. Feldman, J. Peng. “Designing a Russian idiom-annotated corpus”, Proceedings of the Eleventh International Conference on Language Resources and Evaluation, LREC 2018 (Miyazaki, Japan, 7–12 May 2018), ELRA, 2018, pp. 2533–2538.
- D. Puzyrev, A. Shelmanov, A. Panchenko, E. Artemova. “Noun compositionality detection using distributional semantics for the Russian language”, Analysis of Images, Social Networks and Texts, AIST 2019, Lecture Notes in Computer Science, vol. 11832, eds. van der Aalst W. et al., Springer, Cham, 2019, ISBN 978-3-030-37333-7, pp. 218–229.
- Anh Le The, M. Burtsev. “A deep neural network model for the task of named entity recognition”, International Journal of Machine Learning and Computing, 9:1 (2019), pp. 8–13. https:/↑/doi.org/10.18178/ijmlc.2019.9.1.758 8
- Н. А. Власова, И. В. Трофимов, Ю.П. Сердюк, Е. А. Сулейманова, И. Н. Воздвиженский. «PaRuS — синтаксически аннотированный корпусрусского языка», Программные системы: теория и приложения, 10:4(43) (2019), с. 181–199.
- C. Liu, R. Hwa. “A generalized idiom usage recognition model based on semantic compatibility”, Proceedings of the AAAI Conference on Artificial Intelligence, 33:01 (2019), pp. 6738–6745.
- T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, J. Dean. “Distributed representations of words and phrases and their compositionality”, Proceedings of the 26th International Conference on Neural Information Processing Systems. V. 2, NIPS’13 (Lake Tahoe, Nevada, USA, December 5–10, 2013), Curran Associates Inc., 2013, pp. 3111—3119.
- M. Kurfali, R. Ostling. “Disambiguation of potentially idiomatic expressions with contextual embeddings”, Proceedings of the Joint Workshop on Multiword Expressions and Electronic Lexicons (Barcelona, Spain (Online), December 13, 2020), ACL, 2020, pp. 85–94.
- J. Peng, A. Feldman, H. Jazmati. “Classifying idiomatic and literal expressions using vector space representations”, Proceedings of the InternationalConference Recent Advances in Natural Language Processing (Hissar, Bulgaria, Sep 7–9, 2015), INCOMA Ltd., 2015, pp. 507–511.
- J. Peng, K. Aharodnik, A. Feldman. “A distributional semantics model for idiom detection — the case of English and Russian”, Proceedings of the 10th International Conference on Agents and Artificial Intelligence. V. 2 (Funchal, Madeira, Portugal, Jan 16–18, 2018), SciTePress, 2018, ISBN 9789897582752, pp. 675–682.
- M. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, L. Zettlemoyer. “Deep contextualized word representations”, Proceedings ofthe 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. V. 1 (NewOrleans, Louisiana, USA, June 1–6, 2018), ACL, 2018, pp. 2227—2237.
- J. Devlin, M.-W. Chang, K. Lee, K. Toutanova. “BERT: Pre-training of deep bidirectional transformers for language understanding”, Proceedings of NAACL-HLT 2019. V. 1 (Minneapolis, Minnesota, USA, June 2–June 7, 2019), ACL, 2019, pp. 4171–4186.
- F. Sa-Pereira. Distributional representations of idioms, Masters Thesis, McGill University, 2016, 109 pp.
- Ch. Fillmore. “The case for case”, Universals in Linguistic Theory, eds. E. Bach, R. Harms, Holt, Rinehart, and Winston, 1968, pp. 21119.
- A. Shelmanov, I. Smirnov. “Methods for semantic role labeling of Russian texts”, Computational Linguistics and Intellectual Technologies, 13:20, Proceedings of International Conference Dialogue (2014), pp. 607–620.