О применимости рекуррентных нейронных сетей к задаче статистического моделирования русского языка
Автор: Кудинов М.С.
Журнал: Журнал Сибирского федерального университета. Серия: Техника и технологии @technologies-sfu
Статья в выпуске: 8 т.9, 2016 года.
Бесплатный доступ
В статье представлены данные экспериментов по использованию рекуррентных нейронных сетей для языкового моделирования русского языка. Ранее уже была продемонстрирована невысокая эффективность стандартной архитектуры рекуррентной нейронной сети для моделирования русского языка. В данной статье рассматривается модель, осуществляющая предсказание леммы и морфологии последующего слова отдельно. Показано, что модель, использующая только леммы, превосходит n-граммную модель Кнессера-Нея как по перплексии, так и в простом эксперименте по ранжированию гипотез в распознавании речи. В то же время попытки внедрения морфологии в обучение нейронной сети не приводят к улучшениям.
Языковые модели, рекуррентная нейронная сеть, флективные языки, распознавание речи
Короткий адрес: https://sciup.org/146115162
IDR: 146115162 | DOI: 10.17516/1999-494X-2016-9-8-1291-1301
Список литературы О применимости рекуррентных нейронных сетей к задаче статистического моделирования русского языка
- Oparin I. Language Models for Automatic Speech Recognition of Infl ectional Languages. PhD thesis. University of West Bohemia, Pilsen. 2008. P. 125.
- E.W.D. Whittaker. Statistical Language Modeling for Automatic Speech Recognition of Russian and English. PhD Thesis. Cambridge University. 2000. P. 141.
- Deoras A., Mikolov T., Kombrik S. Approximate inference: A sampling based modeling technique to capture complex dependencies in a language model, Speech Communication, Speech Communication, 2013.Vol. 55. № 1. P. 162.
- Bellegarda J. Exploiting latent semantic information in statistical language modeling, Proceedings of the IEEE, August, 2000. № 88. P. 1279.
- Gildea D., Hofmann T. Topic-based language models using EM. History. Proceedings of the 6th European Conference on Speech Communication and Technology, 1999. № 6. P. 2167.
- Andrieu C. et al. An introduction to MCMC for Machine learning. Machine learning, 2003. Vol. 50. N 1-2. P. 5.
- Mikolov T. et al. Recurrent neural network based language model. INTERSPEECH. 2010. Vol. 2. P. 3.
- Mikolov T. Statistical Language Models based on Neural Networks. PhD thesis. Brno: University of Technology. 2012. P. 133.
- Vazhenina D., Markov K., Zelezny M. et al. Evaluation of Advanced Language Modeling Techniques for Russian LVCSR, SPECOM 2013, LNAI 8113. 2013. P. 124.
- Mikolov T. et al. Effi cient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
- Mikolov T., Sutskever I., Chen K., Corrado G. and Dean J. Distributed Representations of Words and Phrases and their Compositionality, Proceedings of NIPS, URL: http://arxiv.org/pdf/1301.3781v3. pdf, 2013.
- Elman J. Finding Structure in Time, Cognitive Science, 1990. № 14. P. 179.
- Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is diffi cult, Neural Networks, IEEE Transactions on, 1994. Vol. 5. № 2. P. 157.
- Pascanu R., Mikolov T., Bengio Y. On the difficulty of training recurrent neural networks, arXiv preprint arXiv:1211.5063, 2012.
- Hochreiter S., Schmidhuber J. Bridging long time lags by weight guessing and "Long Short-Term Memory", Spatiotemporal models in biological and artifi cial systems, 1996. Vol. 37. P. 65.
- Muzychka S., Romanenko A., Piontkovskaja I. Conditional Random Field for morphological disambiguation in Russian, Conference Dialog, 2014. P. 11.
- Mikolov T., Kombrik S. RNNLM -Recurrent Neural Network Modeling Toolkit. ASRU, 2011. P. 456.
- Joachims T. Optimizing search engines using click through data, Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, ACM. 2002. P. 133.