Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка

Бесплатный доступ

В статье рассмотрен подход к масштабированию сервиса морфологического разбора слов естественного языка при обработке различных коллекций документов на русском языке. Выполнен обзор и критический анализ существующих решений. Сформированы требования к инструментальной среде словарного морфологического анализатора. Распределенная архитектура Web-сервиса морфологического анализа, предназначенного для обработки крупных коллекций документов на русском языке, представлена в виде структурной модели. Данная архитектура реализована в виде прототипа системы на языке программирования Ruby. Приведена структура используемого морфологического словаря в виде реляционной схемы. Испытания данного метода в распределенной вычислительной среде показали линейную масштабируемость предлагаемого решения. Конфигурация эксперимента включает систему генерации нагрузки в виде HTTP-запросов, систему балансировки нагрузки на рабочие узлы распределенной системы, серверы приложений с функционирующим анализатором и базу данных морфологического словаря, а также кэширующий узел для снижения издержек при выполнении запросов к словарю. Применение данного подхода позволяет получить линейный рост производительности в распределенных системах автоматической обработки больших объемов текста.

Еще

Распределенные вычисления, обработка естественного языка, корпусная лингвистика, обработка больших объемов данных, морфологический анализ

Короткий адрес: https://sciup.org/147159145

IDR: 147159145

Список литературы Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка

  • Корпусная лингвистика. [Электронный ресурс]//[сайт]. URL: http://www.corpling-ran.ru/index.html (дата обращения 20.05.2012).
  • GATE Cloud -a New Way to Mine the Web. [Электронный ресурс]//[сайт]. URL: http://gatecloud.net (дата обращения 20.05.2012).
  • Система менеджмента качества, оперативный контроль и анализ образовательного процесса/А.Л. Шестаков, А.И. Сидоров, Л.А. Шефер, Е.В. Гичкина//Вестн. Ленинград. гос. ун-та имени А.С. Пушкина. -2009. -№ 1. -С. 177-194.
  • mystem [Электронный ресурс]//[сайт]. URL: http://company.yandex.ru/technologies/mystem (дата обращения 20.05.2012).
  • Snowball [Электронный ресурс]//[сайт]. URL: http://snowball.tartarus.org (дата обращения 20.05.2012).
  • Stemka [Электронный ресурс]//[сайт]. URL: http://www.keva.ru/stemka/stemka.html (дата обращения 20.05.2012).
  • Gearman [Электронный ресурс]//[сайт]. URL: http://gearman.org (дата обращения 20.05.2012).
  • Erjavec, T. MULTEXT-East Version 4: Multilingual Morphosyntactic Specifications, Lexicons and Corpora/T. Erjavec//Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC’10. -Malta.-2010. -С. 2544-2547.
  • Myaso [Электронный ресурс]//[сайт]. URL: http://myaso.eveel.ru (дата обращения 20.05.2012).
  • АОТ:: Технологии [Электронный ресурс]//[сайт]. URL: http://aot.ru/technology.html (дата обращения 20.05.2012).
  • Segalovich, I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine/I. Segalovich//Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA’03. -Las Vegas.-2003. -С. 273-280.
  • HAProxy -The Reliable, High Performance TCP/HTTP Load Balancer [Электронный ресурс]//[сайт]. URL: http://haproxy.1wt.eu (дата обращения 20.05.2012).
  • Коллекция блог-записей [Электронный ресурс]//[сайт]. URL: http://plove.eveel.ru (дата обращения 20.05.2012).
  • Tokyo Cabinet: a modern implementation of DBM [Электронный ресурс]//[сайт]. URL: http://fallabs.com/tokyocabinet (дата обращения 20.05.2012).
  • Memcached -a distributed memory object caching system [Электронный ресурс]//[сайт]. URL: http://memcached.org (дата обращения 20.05.2012).
  • Программные средства. Национальный корпус русского языка [Электронный ресурс]//[сайт]. URL: http://www.ruscorpora.ru/corpora-progr.html
Еще
Статья научная