Обзор методов автоматической обработки текстов на естественном языке

Автор: Белов Сергей Дмитриевич, Зрелова Дарья Петровна, Зрелов Петр Валентинович, Кореньков Владимир Васильевич

Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse

Статья в выпуске: 3, 2020 года.

Бесплатный доступ

В работе представлен краткий обзор современных методов и подходов, используемых для автоматической обработки текстовой информации. В англоязычной литературе эта область науки носит название NLP - Natural Language Processing. Само название говорит о том, что предметом анализа (а для многих задач - и синтеза) являются материалы, изложенные на одном из естественных языков (а для ряда задач - на нескольких языках одновременно), т.е. национальных языках общения между людьми. Языки программирования в эту группу не входят. В русскоязычной литературе эта область носит название компьютерной (или математической) лингвистики. Обычно NLP (компьютерная лингвистика) наряду с анализом текста включает также анализ речи, но в данном обзоре последнее не рассматривается. При составлении обзора использовались материалы оригинальных работ, монографий и ряда статей журнала «Открытые системы.СУБД».

Еще

Лингвистика, корпус языка, машинное обучение, модель word2vec, нейронные сети, nlp

Короткий адрес: https://sciup.org/14123321

IDR: 14123321

Список литературы Обзор методов автоматической обработки текстов на естественном языке

  • Miller, R. AP’s ‘robot journalists’ are writing their own stories now // The Verge, 29 января 2015 года. – URL : www.theverge.com/2015/1/29/7939067/ap-journalism-automation-robots-financial-re-porting (дата обращения: 03.02.2020).
  • New York Times, 18 октября 2016 года. – URL : www.nytimes.com/2016/11/18/technology/automat-edpro-trumpbots-overwhelmed-pro-clinton-messages-researchers-say.html и MIT Technology Review, ноябрь 2016 года: www.technologyreview.com/s/602817/how-the-bot-y-politicinfluenced-this-election/ (дата обращения: 21.11.2019).
  • Тезаурус РуТез. – URL : http://www.labinform.ru/pub/ruthes/ (дата обращения: 21.11.2019).
  • Word Net: An Electronic Lexical Database / Edit. by Christiane Fellbaum. – Cambridge, MIT Press, 1998 (дата обращения: 5.04.2020).
  • Национальный Корпус Русского Языка. – URL : http://ruscorpora.ru (дата обращения: 21.11.2019).
  • ГИКРЯ: генеральный интернет-корпус русского языка. – URL : http://www.webcorpora.ru/ (дата об-ращения: 5.04.2020).
  • Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова [и др.]. – М. : Изд-во НИУ ВШЭ, 2017. – 269 с.
  • Маннинг, К., Рагхаван, П., Шютце, Ч. Введение в информационный поиск. : Пер. с англ. – М. : ООО «И.Д. Вильямс», 2011. – 528 с.
  • Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ [и др.]. – М. : МИЭМ, 2011. – 272 с.
  • Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes (англ.) русск.: journal. – 1998. – Vol. 25. – Pp. 259–284. – DOI: 10.1080/01638539809545028.
  • Mark Needham. scikit-learn: TF/IDF and cosine similarity for computer science papers. – 2017. – URL : https://markhneedham.com/blog/2016/07/27/scitkit-learn-tfidf-and-cosine-similarity-for-computer-sci-ence-papers/ (дата обращения: 21.11.2019).
  • Tomas Mikolov et. al. Efficient Estimation of Word Representations in Vector Space, arxiv.org. – URL: http://arxiv.org/pdf/1301.3781.pdf (дата обращения: 21.11.2019).
  • Stefan Jansen. Word and Phrase Translation with word2vec. – arXiv:1705.03127 [cs.CL]. – 2018. – Pp. 2–11 (дата обращения: 21.11.2019).
  • Селезнев, К. Лингвистика и обработка текстов / К. Селезнев, А. Владимиров // Открытые системы. СУБД. – 2013. – № 4. – С. 46–49.
  • Велихов, П. Машинное обучение для понимания естественного языка // Открытые Системы. СУБД. – 2016. – № 1. – С. 18–21. – URL: https://www.osp.ru/os/2016/01/13048649 (дата обращения: 5.04.2020).
  • Ильвовский, Д. Глубинное обучение для автоматической обработки текстов / Д. Ильвовский, Е. Черняк // Открытые системы. СУБД. – 2017. – № 2. – С. 26–29.
  • «ПРОМТ» представляет решение для анализа неструктурированных данных // Открытые системы. СУБД. – 2016. – № 2. – С. 3–9.
  • Гапотченко, Д. ABBYY учит документооборот понимать тексты // Computerworld Россия. – 2015. – № 10.
  • ИСП РАН анализирует соцсети // Computerworld Россия. – 2017. – № 5.
  • Хобсон, Л. Обработка естественного языка в действии / Л. Хобсон, Х. Ханнес, Х. Коул. – СПб. : Питер, 2020. – 576 с.
Еще
Статья научная