Подготовка речевых и текстовых данных для создания системы автоматического распознавания карельской речи
Автор: Кипяткова И.С., Родионова А.П., Кагиров И.А., Крижановский А.А.
Журнал: Ученые записки Петрозаводского государственного университета @uchzap-petrsu
Рубрика: Теоретическая, прикладная и сравнительно-сопоставительная лингвистика
Статья в выпуске: 5 т.45, 2023 года.
Бесплатный доступ
Описывается процесс сбора и подготовки языковых материалов по ливвиковскому наречию карельского языка, необходимых для обучения системы автоматического преобразования карельской речи в текстовую форму. Актуальность создания подобных технологий для карельского языка обусловлена его статусом малоресурсного языка, что является серьезным препятствием для изучения и сохранения. Основной задачей на текущем этапе исследования является первичный сбор и аннотация речевого и текстового корпусов, а также создание словаря транскрипций. В состав речевого корпуса вошли аудиозаписи 15 дикторов (6 мужчин и 9 женщин). Аудиозаписи расшифрованы и сегментированы на отдельные фразы. Объем речевого корпуса после удаления не подходящих для использования фрагментов составил 3,5 часа. Объем текстового корпуса после обработки и удаления повторяющихся предложений составил более 5 миллионов словоупотреблений. На базе собранного текстового корпуса был сформирован словарь для системы распознавания карельской речи. Для всех слов, вошедших в словарь, были автоматически созданы фонематические транскрипции. В дальнейшей работе собранные текстовые и речевые данные будут использоваться для обучения и тестирования системы автоматического распознавания речи на ливвиковском наречии карельского языка
Карельский язык, ливвиковское наречие, автоматическая обработка естественного языка, обучение системы распознавания речи, наборы данных, корпусная лингвистика
Короткий адрес: https://sciup.org/147241456
IDR: 147241456 | DOI: 10.15393/uchz.art.2023.924
Список литературы Подготовка речевых и текстовых данных для создания системы автоматического распознавания карельской речи
- Афанасьева А. А., Муллонен И. И. Карело-вепсский диалог на карте южной Карелии // Acta Linguistica Petropolitana. 2020. Т. 16, № 3. С. 9-28. DOI: 10.30842/alp2306573716301
- Бубрих Д. В. Происхождение карельского народа. Повесть о союзнике и друге русского народа на Севере. Петрозаводск: Госиздат Карело-Финской ССР, 1947. 53 с.
- Зайков П. М. Глагол в карельском языке. Петрозаводск: Петрозаводский гос. ун-т, 2000. 294 с.
- Кипяткова И. С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы. 2011. Т. 53, № 4. С. 53-59.
- Кипяткова И. С., Кагиров И. А. Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков // Информатика и автоматизация. 2022. Вып. 21, Т. 4. С. 678-709. DOI: 10.15622/ia.21.4.2
- Ковалева С. В., Родионова А. П. Традиционное и новое в лексике и грамматике карельского языка (по данным социолингвистического исследования). Петрозаводск: КарНЦ РАН, 2011. 138 с.
- Кривнова О. Ф., Захаров Л. М., Строкин Г. С. Речевые корпусы (опыт разработки и использование) // Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Т. 2. М., 2001. С. 230-236.
- Крижановский А. А., Крижановская Н. Б., Новак И. П. Представление диалектов в Открытом корпусе вепсского и карельского языков (ВепКар) // Корпусная лингвистика-2019: Труды меж-дунар. конф. СПб., 2019. С. 288-295.
- Романенко А. Н. Робастное распознавание речи для низкоресурсных языков: Дис. ... канд. техн. наук. Ульм, 2020 [Электронный ресурс]. Режим доступа: https://d-nb.info/1251880495/34 (дата обращения 20.12.2022).
- Шаронов И. А. Междометия в языке, в тексте и в коммуникации: Дис. ... д-ра филол. наук. М., 2009. 320 с.
- Bender E. M. On achieving and evaluating language-independence in NLP // Linguistic Issues in Language Technology. 2011. Vol. 6, № 3. P. 1-26. DOI: https://doi.org/10.33011/lilt.v6i.1239
- Berment V. Méthodes pour informatiser des langues et des groupes de langues «peu dotées»: Doct. Diss. Grenoble, 2004. Available at: https://theses.hal.science/tel-00006313/document (accessed 20.12.2022).
- Bhatt Sh., Jain A., Dev A. Acoustic modeling in speech recognition: A systematic review // International Journal of Advanced Computer Science and Applications (IJACSA). 2020. Vol. 11, Issue 4. DOI: 10.14569/IJACSA.2020.0110455. Available at: https://thesai.org/Publications/ViewPaper?Volume=11&Issue=4&C ode=IJACSA&SerialNo=55 (accessed 20.12.2022).
- Hartmann W., Ng T., Hsiao R., Tsakalidis S., Schwartz R. Two-stage data augmentation for low-resourced speech recognition // Proceedings of the 17th Annual Conference of the International Speech Communication Association (Interspeech-2016). San-Francisco, 2016. P. 2378-2382.
- Itkonen T. Aunuksen âânneopin erikoispiirteet ja aunukselaismurteiden synty // Virittaja. 1971. № 2. P. 153182. Available at: https://journal.fi/virittaja/article/view/35912 (accessed 20.12.2022).
- Joshi P., Santy S., Budhiraja A., Bali K., Choudhury M. The state and fate of linguistic diversity and inclusion in the NLP world // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. P. 6282-6293. DOI: 10.48550/arXiv.2004.09095
- Karjalainen H., Ulriikka P., Riho G., Svetlana K. Karelian in Russia: ELDIA case-specific report, with contributions by Reetta Toivanen, Anneli Sarhimaa and Eva Kûhhirt (Studies in European Language Diversity 26). Research consortium ELDIA, 2013.
- Ko T., Peddinti V., Povey D., Khudanpur S. Audioaugmentationforspeechrecognition// Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, 2015. P. 3586-3589.
- Krauwer S. The basic language resource kit (BLARK) as the first milestone for the language resources roadmap // Proceedings of International workshop on speech and computer (SPECOM-2003). Moscow, 2003. P. 8-15.
- Novak I., Penttonen M., Ruuskanen A., Siilin L. Karelian in grammars: A study of phonetic and morphological variation. Scientific electronic edition. Petrozavodsk: KarRC RAS, 2022. Available at: http:// resources.krc.karelia.ru/illh/doc/knigi_stati/karelian_in_grammar.pdf (accessed 20.12.2022).
- Ponti E. M., O'Horan H., Berzak Y., Vulic I., Reichart R., Poibeau T., Shutova E., Korhonen A. Modeling language variation and universals: A survey on typological linguistics for natural language processing // Computational Linguistics. 2019. Vol. 45, № 3. P. 559-601. DOI: https://doi.org/10.48550/arXiv.1807.00914
- Rebai I., BenAyed Y., Mahdi W., Lorré J. P. Improving speech recognition using data augmentation and acoustic model fusion // Procedia Computer Science. 2017. Vol. 112. P. 316-322. DOI: https:// doi.org/10.1016/j.procs.2017.08.003
- Sarhimaa A. Karelian // Bakro-Nagy, Marianne, Johanna Laakso, and Elena Skribnik (Eds). The Oxford guide to the Uralic languages. Oxford: Oxford Academic, 2022. P. 269-290.