Автоматизация процесса получения лингвистической информации: современные возможности
Автор: Светлов Андрей Владимирович, Комендантов Анатолий Сергеевич
Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics
Рубрика: Главная тема номера
Статья в выпуске: 2 т.16, 2017 года.
Бесплатный доступ
Статья посвящена проблемам автоматизации решения некоторых задач лингвистического анализа. Описано многообразие существующего лингвистического программного обеспечения. Приведена его классификация: электронные словари и тезаурусы; программы преобразования текстов и генераторы текстов; программы анализа и лингвистической обработки документов; системы обработки естественного языка. Для каждой группы даны примеры соответствующих приложений или веб-сервисов, обсуждаются современные возможности программ, сферы их использования и перспективы развития. Основная часть работы посвящена созданной авторами статьи надстройке над утилитой для стемминга MyStem И. Сегаловича. Приложение добавляет к возможностям утилиты удобный графический интерфейс, простой для освоения и интуитивно понятный пользователям, не специализирующимся в информационных технологиях. Функционирование приложения связано с использованием результатов стемминга для решения некоторых специфических задач. Оно перехватывает вывод утилиты MyStem, специальным образом переформатирует и анализирует его. В число задач, которые решаются на основании этой обработки, входит частотный анализ текста, выборка определенных частей речи, выборка побуждений. На примерах продемонстрированы результаты работы всех модулей программы. В заключении намечены некоторые перспективы развития созданного приложения.
Автоматизация, лингвистический анализ, морфологический анализ, автоматизация морфологического анализа, стемминг, графический интерфейс, автоматизация лингвистического анализа, программная оболочка
Короткий адрес: https://sciup.org/14970317
IDR: 14970317 | УДК: 81’33 | DOI: 10.15688/jvolsu2.2017.2.4
Automation of the process for obtaining linguistic information: state-of-the-art capabilities
The paper is devoted to the process automation for solution of some problems in linguistic analysis. The review part of the article describes the variety of current linguistic software. We give its classification as follows: electronic dictionaries and thesauri, text conversion programs and text generators, programs for analysis and linguistic processing of documents, natural language processing systems. For each group we mention some examples of relevant applications or web services. In addition, we discuss current capabilities of the software, their scope of use and development prospects. In the main part of the work we overview the add-on we created for the MyStem stemming utility by Ilya Segalovich. The application adds to the features of the utility a user-friendly graphical interface that is easy to learn and intuitive to users who do not specialize in information technology. The algorithm implemented in the software is based on using the results of stemming process to solve some specific problems. It intercepts the output of the MyStem utility, then reformats it and run some specific analysis. The results of this analysis are the basis for main processes of the add- on. This way we can get the frequency analysis of the text, can extract any certain parts of speech, and select inciting words in the text. The examples in this part of paper show the results of all units of the software. In conclusion we made several remarks on the prospects for the development of our application.
Список литературы Автоматизация процесса получения лингвистической информации: современные возможности
- Андриянов, Д. В. Проектирование информационной системы для выборки словарных статей по стилистическим пометам/Д. В. Андриянов//Актуальные направления научных исследований XXI века: теория и практика. -2015. -Т. 3, № 7, ч. 3. -C. 304-307.
- Всеволодова, А. В. Компьютерная обработка лингвистических данных/А. В. Всеволодова. -М.: Флинта: Наука, 2007. -96 c.
- Гольдин, В. Е. Введение в электронные лингвистические ресурсы/В. Е. Гольдин, О. Ю. Крючкова. -Саратов: Изд-во СГУ, 2011. -63 c.
- Коваленко, А. Вероятностный морфологический анализатор русского и украинского языков/А. Коваленко//Системный администратор. -2002. -№ 1. -C. 66-75.
- Логичев, С. В. Каталог лингвистических программ и ресурсов в Сети/С. В. Логичев//Русская виртуальная библиотека. -Электрон. текстовые дан. -Режим доступа: http://rvb.ru/soft/catalogue/catalogue.html. -Загл. с экрана.
- Щипицина, Л. Ю. Информационные технологии в лингвистике/Л. Ю. Щипицина. -М.: Флинта: Наука, 2013. -126 c.
- Lovins, J. B. Development of a stemming algorithm/J. B. Lovins//Mechanical Translation and Computational Linguistics. -1968. -Vol. 11, № 1-2. -P. 22-31.
- Porter, M. F. An algorithm for suffix stripping/M. F. Porter//Program. -1980. -Vol. 14, iss. 3. -P. 130-137.
- Segalovich, I. A fast morphological algorithm with unknown word guessing inducedby a dictionary for a web search engine/I. Segalovich//Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. -Las Vegas: CSREA Press, 2003. -P. 273-280.