Обзор методов автоматической обработки текстов на естественном языке
Автор: Белов Сергей Дмитриевич, Зрелова Дарья Петровна, Зрелов Петр Валентинович, Кореньков Владимир Васильевич
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 3, 2020 года.
Бесплатный доступ
В работе представлен краткий обзор современных методов и подходов, используемых для автоматической обработки текстовой информации. В англоязычной литературе эта область науки носит название NLP - Natural Language Processing. Само название говорит о том, что предметом анализа (а для многих задач - и синтеза) являются материалы, изложенные на одном из естественных языков (а для ряда задач - на нескольких языках одновременно), т.е. национальных языках общения между людьми. Языки программирования в эту группу не входят. В русскоязычной литературе эта область носит название компьютерной (или математической) лингвистики. Обычно NLP (компьютерная лингвистика) наряду с анализом текста включает также анализ речи, но в данном обзоре последнее не рассматривается. При составлении обзора использовались материалы оригинальных работ, монографий и ряда статей журнала «Открытые системы.СУБД».
Лингвистика, корпус языка, машинное обучение, модель word2vec, нейронные сети, nlp
Короткий адрес: https://sciup.org/14123321
IDR: 14123321 | УДК: 004.912,
Overview of methods for automatic natural language text processing
This paper provides a brief overview of modern methods and approaches used for automatic processing of text information. In English-language literature, this area of science is called NLP-Natural Language Processing. The very name suggests that the subject of analysis (and for many tasks - and synthesis) are materials presented in one of the natural languages (and for a number of tasks - in several languages simultaneously), i.e. national languages of communication between people. Programming languages are not included in this group. In Russian-language literature, this area is called Computer (or mathematical) linguistics. NLP (computational linguistics) usually includes speech analysis along with text analysis, but in this review speech analysis does not consider. The review used materials from original works, monographs, and a number of articles published the «Open Systems.DBMS» journal.
Список литературы Обзор методов автоматической обработки текстов на естественном языке
- Miller, R. AP’s ‘robot journalists’ are writing their own stories now // The Verge, 29 января 2015 года. – URL : www.theverge.com/2015/1/29/7939067/ap-journalism-automation-robots-financial-re-porting (дата обращения: 03.02.2020).
- New York Times, 18 октября 2016 года. – URL : www.nytimes.com/2016/11/18/technology/automat-edpro-trumpbots-overwhelmed-pro-clinton-messages-researchers-say.html и MIT Technology Review, ноябрь 2016 года: www.technologyreview.com/s/602817/how-the-bot-y-politicinfluenced-this-election/ (дата обращения: 21.11.2019).
- Тезаурус РуТез. – URL : http://www.labinform.ru/pub/ruthes/ (дата обращения: 21.11.2019).
- Word Net: An Electronic Lexical Database / Edit. by Christiane Fellbaum. – Cambridge, MIT Press, 1998 (дата обращения: 5.04.2020).
- Национальный Корпус Русского Языка. – URL : http://ruscorpora.ru (дата обращения: 21.11.2019).
- ГИКРЯ: генеральный интернет-корпус русского языка. – URL : http://www.webcorpora.ru/ (дата об-ращения: 5.04.2020).
- Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова [и др.]. – М. : Изд-во НИУ ВШЭ, 2017. – 269 с.
- Маннинг, К., Рагхаван, П., Шютце, Ч. Введение в информационный поиск. : Пер. с англ. – М. : ООО «И.Д. Вильямс», 2011. – 528 с.
- Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ [и др.]. – М. : МИЭМ, 2011. – 272 с.
- Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes (англ.) русск.: journal. – 1998. – Vol. 25. – Pp. 259–284. – DOI: 10.1080/01638539809545028.
- Mark Needham. scikit-learn: TF/IDF and cosine similarity for computer science papers. – 2017. – URL : https://markhneedham.com/blog/2016/07/27/scitkit-learn-tfidf-and-cosine-similarity-for-computer-sci-ence-papers/ (дата обращения: 21.11.2019).
- Tomas Mikolov et. al. Efficient Estimation of Word Representations in Vector Space, arxiv.org. – URL: http://arxiv.org/pdf/1301.3781.pdf (дата обращения: 21.11.2019).
- Stefan Jansen. Word and Phrase Translation with word2vec. – arXiv:1705.03127 [cs.CL]. – 2018. – Pp. 2–11 (дата обращения: 21.11.2019).
- Селезнев, К. Лингвистика и обработка текстов / К. Селезнев, А. Владимиров // Открытые системы. СУБД. – 2013. – № 4. – С. 46–49.
- Велихов, П. Машинное обучение для понимания естественного языка // Открытые Системы. СУБД. – 2016. – № 1. – С. 18–21. – URL: https://www.osp.ru/os/2016/01/13048649 (дата обращения: 5.04.2020).
- Ильвовский, Д. Глубинное обучение для автоматической обработки текстов / Д. Ильвовский, Е. Черняк // Открытые системы. СУБД. – 2017. – № 2. – С. 26–29.
- «ПРОМТ» представляет решение для анализа неструктурированных данных // Открытые системы. СУБД. – 2016. – № 2. – С. 3–9.
- Гапотченко, Д. ABBYY учит документооборот понимать тексты // Computerworld Россия. – 2015. – № 10.
- ИСП РАН анализирует соцсети // Computerworld Россия. – 2017. – № 5.
- Хобсон, Л. Обработка естественного языка в действии / Л. Хобсон, Х. Ханнес, Х. Коул. – СПб. : Питер, 2020. – 576 с.