Электронный словарь имен собственных якутского языка
Автор: Леонтьев Н.А., Протопопова В.Ф.
Журнал: Форум молодых ученых @forum-nauka
Статья в выпуске: 1 (5), 2017 года.
Бесплатный доступ
Статья посвящена вопросу создания электронного словаря имен собственных которые используются в повседневной жизни. Для нахождения и извлечения имен собственных используется газетный корпус якутского языка. Газетный корпус якутского языка создан на основе текстов из газет на якутском языке.
Словарь, имена собственные, газетный корпус, якутский язык
Короткий адрес: https://sciup.org/140276873
IDR: 140276873
Текст научной статьи Электронный словарь имен собственных якутского языка
Якутский язык является одним из языков тюркской группы. Для письменности используется кириллица. Носителями языка являются более 400 тыс. человек, основаная часть проживает в Республике Саха (Якутия). Выпускаются региональные газеты и журналы на якутском языке, имеются новостные сайты с новостями на якутском языке. Для анализа якутского языка применяемых в средствах массовых информаций был создан газетный корпус якутского языка [1-2]. Размер корпуса более 12 миллионов словоупотреблений [3], размер словаря словоформ более 350 тыс.единиц. С помощью корпуса был проведен частотный анализ якутского языка [4-5]. Кодировка текста должна быть UTF-8 стандарта Unicode, так как там поддерживаются национальные символы якутского языка, в расширенной странице кириллицы.
Как и во всех языках в ней существуют свои национальные имена и фамилии. Многие имена были принято при крещении их в православие, так что очень часто используются имена и фамилии русского типа. Существуют фонетически адаптированные варианты якутских имен "Уйбаан" (Иван - рус.), "Хабырыыс" (Гаврил), "Дье^ер" (Егор), "БYетYр" (Петр). В официальных документах обычно используются русские варианты имен, в повседневной жизни очень часто используют фонетические адаптированные варианты. В последнее время также часто используют национальные якутские имена и для официальных документов. Трудности возникают из-за наличия нескольких вариантов написания на русском языке. Например "Ньургун" - "Нюргун", "Саргылаана" - "Саргылана", "Туйаара" - "Туйара" - "Туяра".
В последние года в государственных записях регистрации можно записывать отчество с приставкой «уола» и «кыыhа» - что значит «сын» и «дочь». Вместо отчества «Иванович» - «Иван уола».
Для правильного анализа машинного корпуса необходимо составить электронных словарь имен собственных якутского языка, с учетом современных тенденций в правописании. При анализе корпусе было выявлено 397 имен, 143 отчество, 958 фамилий. Большое количество фамилий объясняется тем фактом, что обычно в новостях пишут только фамилию с инициалами. В разных статьях бывает наличие имен собственных, особенно в новостях про детские мероприятия, в том числе и спортивных.
Якутский язык относиться к языкам агглюнативного типа, что обозначает словообразование из основы слова путем присоединения аффиксов. Все тюркские языки относятся к языкам агглюнативного типа, в якутском существует изменение аффикса согласно правилу сингармонизма.

Основа "Туйаара" + аффикс "быт" + "ынан" = "Туйаарабыт" (Через нашу Туйаару). Число аффиксов может достигать восьми, всего комбинаций аффиксов может быть до 15 тысяч, что увеличивает количество количество словоформ и затрудняет анализ текста.
Для сбора материала необходима лемматизация для нахождения основы слова, так как при добавлении аффикса происходить изменения окончания основы для выполнения сингармонизма. Только при таком учете словоформ происходить правильный учет персоналий.
Заключение
В ходе исследования был получен электронный словарь имен собственных якутского языка используемых в газетном корпусе. Данный электронный словарь может быть полезен для автоматической обработки текстов на якутском языке, для нахождения персоналий в корпусе, для поисковых систем персоналий в сети Интернет.
Список литературы Электронный словарь имен собственных якутского языка
- Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference «Turkic Languages Prosessing: TurkLang - 2015». - 2015. - Р. 233-235.
- Леонтьев Н.А. Национальный корпус интернет-сайтов газет на якутском языке // Журнал научных и прикладных исследований. - 2014. - Т. 4. - С. 53-54.
- Леонтьев Н.А. Вопрос о размере машинного корпуса на примере якутского языка // Современные научные исследования и инновации. - 2015. - № 11 (55). - С. 281-283.
- Протопопова В.Ф. Частотная таблица символов якутского языка с учетом диграфов и дифтонгов // Информационно- телекоммуникационные системы и технологии. Материалы Всероссийской научно-практической конференции. Кемерово - 2014 - с.141-142
- Леонтьев Н.А. Частотный словарь якутского языка по материалам газетного корпуса // Язык и культура. Новосибирск - №13 - 2014 - с.57-60