Parus - синтаксически аннотированный корпус русского языка
Автор: Власова Наталья Александровна, Трофимов Игорь Владимирович, Сердюк Юрий Петрович, Сулейманова Елена Анатольевна, Воздвиженский Илья Николаевич
Журнал: Программные системы: теория и приложения @programmnye-sistemy
Рубрика: Искусственный интеллект, интеллектуальные системы, нейронные сети
Статья в выпуске: 4 (43) т.10, 2019 года.
Бесплатный доступ
В статье представлен новый аннотированный корпус русского языка PaRuS (Parsed Russian Sentences). Корпус имеет объем свыше 2,5 миллиардов токенов и предназначен для решения задач компьютерной лингвистики методами машинного обучения. PaRuS состоит из предложений русского литературного языка. Каждое предложение снабжено лингвистической разметкой: морфологической в формате MULTEXT-East и синтаксической в нотации СинТагРус. В статье рассмотрена методология создания корпуса, описан гибридный лингвистический конвейер PaRuS_pipe, разработанный для порождения разметки. Обсуждаются вопросы качества аннотирования языкового материала в корпусе PaRuS, выполнена оценка морфологического анализатора конвейера PaRuS_pipe по методологии соревнования MorphoRuEval-2017.
Компьютерная лингвистика, корпусная лингвистика, русский язык, языковой корпус, разметка, морфология, синтаксис
Короткий адрес: https://sciup.org/143169807
IDR: 143169807 | DOI: 10.25209/2079-3316-2019-10-4-181-199
Список литературы Parus - синтаксически аннотированный корпус русского языка
- С. Ю. Толдова, О. Н. Ляшевская. «Современные проблемы и тенденции компьютерной лингвистики (в зеркале 24-ой конференции по компьютерной лингвистике COLING 2012 Мумбаи)», Вопросы языкознания, 2014, №1, с. 120-145.
- Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин и др. Лингвистическое обеспечение системы ЭТАП-2, Наука, М., 1989, , 296 с. ISBN: 5-02-006572-2
- V. Benko. “Aranea: yet another family of (comparable) web corpora”, 17th International Conference TSD 2014 (Brno, Czech Republic, September 8-12, 2014), Lecture Notes in Computer Science, vol. 8655, eds. P. Sojka, A. Horák, I. Kope, K. Pala, Springer International Publishing, Switzerland, 2014, , pp. 257-264. DOI: 10.1007/978-3-319-10816-2_31 ISBN: 978-3-319-10815-5
- В. Бенко, В. Захаров. «Сверхбольшие корпусы русского языка: новые возможности и новые проблемы», По материалам ежегодной международной конференции «Диалог» (Москва, 1-4 июня 2016 г.), Компьютерная лингвистика и интеллектуальные технологии, т. 15(22), Изд-во РГГУ, М., 2016, с. 79-93 (англ., http://www.dialog-21.ru/media/3383/benkovzakharovvp.pdf http://www.dialog-21.ru/media/3383/benkovzakharovvp.pdf).
- M. Jakubicek, A. Kilgarriff, V. Kovar, P. Rychly, V. Suchomel. “The TenTen corpus family”, Int. Conf. on Corpus Linguistics (Lancaster, 2013) URL https://www.sketchengine.co.uk/wp-content/uploads/The_TenTen_Corpus_2013.pdf.
- В. И. Беликов, Н. Ю. Копылов, А. Ч. Пиперски, В. П. Селегей, С. А. Шаров. «Корпус как язык: от масштабируемости к дифференциальной полноте», По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая-2 июня 2013 г.), Компьютерная лингвистика и интеллектуальные технологии, т. 12 (19), Изд-во РГГУ, М., 2013, с. 84-95.
- Т. Шаврина, О. Шаповалова. «To the methodology of corpus construction for machine learning: ‘Taiga’ syntax tree corpus and parser» (Санкт-Петербург, 27-30 июня 2017 г.), Издательство СПбГУ, СПб., 2017, с. 78-84 (англ.).
- T. O. Shavrina. «Дифференциальный подход к построению веб-корпусов», По материалам ежегодной международной конференции «Диалог» (Москва, 30 мая-2 июня 2018 г.), Компьютерная лингвистика и интеллектуальные технологии, т. 17(24), Изд-во РГГУ, М., 2018 URL http://www.dialog-21.ru/media/4261/shavrina.pdf (англ.).
- Ю. Д. Апресян, И. М. Богуславский, Б. Л. Иомдин, Л. Л. Иомдин, А. В. Санников, В. З. Санников, В. Г. Сизов, Л. Л. Цинман. «Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы», Индрик, М., 2005, с. 193-214.
- В. А. Плунгян. «Зачем нужен Национальный корпус русского языка? Неформальное введение», Индрик, М., 2005, с. 6-20.
- J. Nivre, I. M. Boguslavskii, L. L. Iomdin. “Parsing the SynTagRus treebank of Russian”, 22nd International Conference on Computational Linguistics, COLING 2008 (18-22 August 2008, Manchester, UK), 2008, pp. 641-648.
- DOI: 10.3115/1599081.1599162
- M. Kudinov, A. Romanenko, I. Piontkovskaya. «Conditional random field in segmentation and noun phrase inclination on tasks for Russian», По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2014 г.), Компьютерная лингвистика и интеллектуальные технологии, т. 13 (20), Изд-во РГГУ, М., с. 297-306 (англ.).
- П. В. Дяченко, Л. Л. Иомдин, А. В. Лазурский, Л. Г. Митюшин, О. Ю. Подлесская, В. Г. Сизов, Т. И. Фролова, Л. Л. Цинман. «Современное состояние глубоко аннотированного корпуса русского языка (СинТагРус)», Труды Института русского языка им. В. В. Виноградова, т. 6, М., 2015, с. 272-299.
- I. Boguslavsky. “SynTagRus - a deeply annotated corpus of Russian”, English and French edition, eds. P. Blumenthal, I. Novakova, D. Siepmann, P. Lang, 2014, , pp. 367-380.
- ISBN: 978-3-631-64608-3
- J. Nivre, M.-C. de Marneffe, F. Ginter, Y. Goldberg, J. Hajic, Ch. D. Manning, R. McDonald, S. Petrov, S. Pyysalo, N. Silveira, R. Tsarfaty, D. Zeman. “Universal Dependencies v1: A multilingual treebank collection”, LREC 2016 (May 23-28, 2016, Portoro Slovenia), pp. 1659-1666.
- Ф. А. Антомонов. «Универсальные зависимости: сравнение синтаксического анализа для шведского языка», По материалам ежегодной международной конференции «Диалог» (Москва, 1-4 июня 2016 г.), Компьютерная лингвистика и интеллектуальные технологии, т. 15(22), Изд-во РГГУ, М., 2016, 7 с. (англ.).
- O. Lyashevskaya, K. Droganova, D. Zeman, M. Alexeeva, T. Gavrilova, N. Mustafina, E. Shakurova. Universal dependencies for Russian: a new syntactic dependencies tagset, 2016.
- DOI: 10.2139/ssrn.2859998
- I. Boguslavsky, S. Grigorieva, N. Grigoriev, L. Kreidlin, N. Frid. “Dependency treebank for Russian: concept, tools, types of information”, 18th International Conference on Computational Linguistics, COLING 2000 (July 31-August 4, 2000, Universität des Saarlandes, Saarbrücken, Germany), 2000, pp. 987-991.
- W. B. Cavnar, J. M. Trenkle. “N-gram-based text categorization”, 3rd Annual Symposium on Document Analysis and Information Retrieval, SDAIR-94 (April 11-13, 1994, Las Vegas, Nevada), pp. 161-175.
- J. Pomikálek. Removing boilerplate and duplicate content from Web corpora, Masaryk university, Faculty of informatics, Brno, Czech republic, 2011, 108 pp.
- S. Sharoff, J. Nivre. «The proper place of men and machines in language technology. Processing Russian without any linguistic knowledge», По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25-29 мая 2011 г.), Компьютерная лингвистика и интеллектуальные технологии, т. 10(17), Изд-во РГГУ, М., 2011, с. 591-604 (англ.).
- M. Straka, J. Straková. Tokenizing, POS tagging, lemmatizing and parsing UD 2.0 with UDPipe, CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies (Vancouver, Canada, August 2017), 2017, 12 pp.
- DOI: 10.18653/v1/K17-3009
- А. В. Сокирко. «Морфологические модули на сайте www.aot.ru», По материалам ежегодной Международной конференции «Диалог» (2-7 июня 2004 г.), Компьютерная лингвистика и интеллектуальные технологии, Наука, М., 2004, с. 559-564.
- S. Sharoff, M. Kopotev, T. Erjavec, A. Feldman, D. Divjak. “Designing and evaluating Russian tagsets”, 6th International Conference on Language Resources and Evaluation, LREC 2008 (Marrakech, May, 2008), pp. 279-285.
- И. В. Трофимов. «Морфологический анализ русского языка: обзор прикладного характера», Программная инженерия, 10:9-10 (2019), с. 391-399.
- DOI: 10.17587/prin.10.391-399
- Д. Г. Анастасьев, И. О. Гусев, Е. М. Инденбом. «Улучшение морфологического парсера с помощью вспомогательных задач обучения и представлений слов на символьном уровне», По материалам ежегодной международной конференции «Диалог» (Москва, 30 мая-2 июня 2018 г.), Компьютерная лингвистика и интеллектуальные технологии, т. 17(24), Изд-во РГГУ, М., 2018, с. 14-27 (англ.).
- arXiv: 1807.00818