Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка
Автор: Усталов Дмитрий Алексеевич, Гольдштейн Михаил Людвигович
Рубрика: Программирование
Статья в выпуске: 27 (286), 2012 года.
Бесплатный доступ
В статье рассмотрен подход к масштабированию сервиса морфологического разбора слов естественного языка при обработке различных коллекций документов на русском языке. Выполнен обзор и критический анализ существующих решений. Сформированы требования к инструментальной среде словарного морфологического анализатора. Распределенная архитектура Web-сервиса морфологического анализа, предназначенного для обработки крупных коллекций документов на русском языке, представлена в виде структурной модели. Данная архитектура реализована в виде прототипа системы на языке программирования Ruby. Приведена структура используемого морфологического словаря в виде реляционной схемы. Испытания данного метода в распределенной вычислительной среде показали линейную масштабируемость предлагаемого решения. Конфигурация эксперимента включает систему генерации нагрузки в виде HTTP-запросов, систему балансировки нагрузки на рабочие узлы распределенной системы, серверы приложений с функционирующим анализатором и базу данных морфологического словаря, а также кэширующий узел для снижения издержек при выполнении запросов к словарю. Применение данного подхода позволяет получить линейный рост производительности в распределенных системах автоматической обработки больших объемов текста.
Распределенные вычисления, обработка естественного языка, корпусная лингвистика, обработка больших объемов данных, морфологический анализ
Короткий адрес: https://sciup.org/147159145
IDR: 147159145 | УДК: 004.912
A distributed dictionary - based morphological analysis framework for Russian language processing
This article describes an approach to scaling service morphological parsing of words of natural language processing of various collections of documents in Russian. An overview and critical analysis of existing solutions. The requirements workbench vocabulary morphological analyzer were established. The distributed architecture of the web service morphological analysis, designed to a handle large collections of documents in Russian, presented the form of a structural model. This architecture is implemented as a prototype system in the programming language Ruby. The structure used in the morphological dictionary of a relational schema. Tests of this method in a distributed computing environment showed linear scalability of the proposed solutions. The configuration of the experiment involves the generation of the system load as a HTTP requests, system load balancing working nodes of a distributed system, application servers with a functioning database analyzer and morphological dictionary, as well as a caching node to reduce costs when you run queries to the dictionary. Applying this approach provides a linear increase in performance in distributed systems, automated processing of large volumes of text.
Список литературы Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка
- Корпусная лингвистика. [Электронный ресурс]//[сайт]. URL: http://www.corpling-ran.ru/index.html (дата обращения 20.05.2012).
- GATE Cloud -a New Way to Mine the Web. [Электронный ресурс]//[сайт]. URL: http://gatecloud.net (дата обращения 20.05.2012).
- Система менеджмента качества, оперативный контроль и анализ образовательного процесса/А.Л. Шестаков, А.И. Сидоров, Л.А. Шефер, Е.В. Гичкина//Вестн. Ленинград. гос. ун-та имени А.С. Пушкина. -2009. -№ 1. -С. 177-194.
- mystem [Электронный ресурс]//[сайт]. URL: http://company.yandex.ru/technologies/mystem (дата обращения 20.05.2012).
- Snowball [Электронный ресурс]//[сайт]. URL: http://snowball.tartarus.org (дата обращения 20.05.2012).
- Stemka [Электронный ресурс]//[сайт]. URL: http://www.keva.ru/stemka/stemka.html (дата обращения 20.05.2012).
- Gearman [Электронный ресурс]//[сайт]. URL: http://gearman.org (дата обращения 20.05.2012).
- Erjavec, T. MULTEXT-East Version 4: Multilingual Morphosyntactic Specifications, Lexicons and Corpora/T. Erjavec//Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC’10. -Malta.-2010. -С. 2544-2547.
- Myaso [Электронный ресурс]//[сайт]. URL: http://myaso.eveel.ru (дата обращения 20.05.2012).
- АОТ:: Технологии [Электронный ресурс]//[сайт]. URL: http://aot.ru/technology.html (дата обращения 20.05.2012).
- Segalovich, I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine/I. Segalovich//Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA’03. -Las Vegas.-2003. -С. 273-280.
- HAProxy -The Reliable, High Performance TCP/HTTP Load Balancer [Электронный ресурс]//[сайт]. URL: http://haproxy.1wt.eu (дата обращения 20.05.2012).
- Коллекция блог-записей [Электронный ресурс]//[сайт]. URL: http://plove.eveel.ru (дата обращения 20.05.2012).
- Tokyo Cabinet: a modern implementation of DBM [Электронный ресурс]//[сайт]. URL: http://fallabs.com/tokyocabinet (дата обращения 20.05.2012).
- Memcached -a distributed memory object caching system [Электронный ресурс]//[сайт]. URL: http://memcached.org (дата обращения 20.05.2012).
- Программные средства. Национальный корпус русского языка [Электронный ресурс]//[сайт]. URL: http://www.ruscorpora.ru/corpora-progr.html