Математическая модель естественного языка для морфемного анализа с использованием статистических данных

Автор: Фадеев С.Г.

Журнал: Форум молодых ученых @forum-nauka

Статья в выпуске: 5 (9), 2017 года.

Бесплатный доступ

В статье предложена математическая модель для морфемного анализа словоформ естественного языка. Модель основана на матрицах вероятностей. Предложенная модель позволяет оптимизировать морфемный анализ на основе предварительно полученных статистических данных. Рассмотрены достоинства и недостатки предложенной модели.

Морфемный анализ, словоформа, морф, оптимизация, математическая модель

Короткий адрес: https://sciup.org/140278568

IDR: 140278568

Текст научной статьи Математическая модель естественного языка для морфемного анализа с использованием статистических данных

Одним из этапов программного анализа текста на естественном языке является морфемный анализ - разбиение словоформ на морфы, т.е. на минимальные значимые единицы текста, несущие морфологическую информацию. Различают 2 типа морфов – корни и аффиксы. Корни являются носителями лексических значений слов, аффиксы служат для грамматических и словообразовательных целей.

Если естественный язык имеет сравнительно небольшое число аффиксов, которые при этом не образуют длинные последовательности, то задача программного разбора на морфы может быть решена «в лоб» - путем составления соответствующего словаря для всех встречающихся в языке словоформ. Но такой подход нельзя признать универсальным, т.к. он удобен лишь для флективных языков, в которых количество аффиксов в словоформе сравнительно невелико. Для агглютинативных языков такой подход неприменим, т.к. в них число аффиксов может быть большим (несколько сотен), а количество их возможных комбинаций – огромным. Составить словарь всех возможных словоформ в таких случаях представляется нецелесообразным – проще выполнить морфемный разбор «на месте».

Сложность автоматизации задачи морфемного анализа состоит в том, что заранее неизвестно, где заканчивается один морф и начинается другой. Кроме того, в естественных языках присутствует омонимия, когда одна и та же грамматическая форма может иметь несколько вариантов разбора. Вследствие этого морфемный разбор даже небольшого текста может потребовать значительных вычислительных ресурсов, что затрудняет его применение, например, в мобильных приложениях, где вычислительная мощность существенно ограничена [1].

Морфемный разбор можно оптимизировать, если учитывать особенности естественных языков. Например, словоформу можно разбить на три относительно независимые группы морфов – префиксную группу, группу корней и постфиксную группу, которые можно разбирать отдельно [2]. Каждая из групп имеет свой состав морфов.

Обозначим через A={a1, a2, …, aN} множество морфов префиксной группы, B={b1, b2, …, bM} - множество морфов группы корней и C={c1, c2, …, cK} - множество морфов постфиксной группы. N, M и K – соответственно количество морфов (мощность множества) префиксной группы, группы корней и постфиксной группы для заданного естественного языка.

Опираясь на решение, описанное в статье [2], можно предложить математическую модель естественного языка, предназначенную для морфемного разбора и состоящую из 6 матриц:

3 матрицы – это вектор-столбцы размерностью N×1, M×1, K×1, полученные из соответствующих множеств A, B, C;
3 матрицы размерностью N×n, M×m, K×k, где n, m, k – максимальное число шагов при анализе префиксной группы, группы корней и постфиксной группы соответственно.

Величины n, m и k определяются морфологическими характеристиками конкретного естественного языка.

Префиксная группа:

Вектор-столбец морфов префиксной группы |с2| c/vJ Матрица вероятностей для разбора префиксной группы ГР1(с1) Р2(с1) "‘ Рп(с1) 1 P1(d2) P2(d2) ™ Pn(d2) [P1(cn) P2(cw) "‘ Pn(dW)-l где di - i-ый морф множества префиксной группы A; Pj(cii) - вероятность встречи сц на j-ом шаге.

Группа корней:

Вектор-столбец морфов группы корней Г ba b2 . bM. Матрица вероятностей для разбора группы корней ГPi(bi) P2(b1) - P„(b1) 1 P1(b2) P2(b2) - P„(b2) [P1(bM) P2(bM) — Pm(bM)-l где bi - i-ый морф множества группы корней B; Pj(bi) - вероятность встречи bi на j-ом шаге.

Постфиксная группа:

Вектор-столбец морфов постфиксной группы |/| Матрица вероятностей для разбора постфиксной группы Г P1(C1) P2(Ci)-Pk(Ci)l P1(C2) P2(C2) - Pk(C2) P1(cK) P2(cK) "' Pfc(CK)l где

C i - i -ый морф множества группы корней C;

P j (C i ) - вероятность встречи C i на j-ом шаге.

Задав указанные матрицы, мы определим параметры статистической модели естественного языка, предназначенную для выполнения и оптимизации морфемного разбора. Каждый естественный язык будет описываться своей шестеркой матриц.

Рассмотрим достоинства и недостатки предложенной модели.

Достоинства:

1. Универсальность – подходит для всех типов естественных
2. В программном обеспечении, основанном на предложенной
3. Для каждого языка можно иметь несколько матриц вероятностей. Например, одни матрицы будут использоваться для официально-делового стиля, другие - для разговорного стиля, третьи - для художественного и т.д.
4. Модель хорошо ложится на реляционную модель данных – наиболее распространенную и отработанную в настоящее время.

языков, включая агглютинативные.

модели, данные будут отделены от алгоритма разбора – достаточно будет подключить другие матрицы и модель сможет работать с другим языком. Это позволит создавать универсальные программы морфемного разбора, способные работать с любыми языками. Кроме того, это дает возможность удаленно обновлять программное обеспечение морфемного разбора, заменяя только данные - без переустановки самой программы.

Недостатки:

1. Т.к. модель основана на статистических данных, то требуется ее предварительная настройка путем обработки большого количества текстов с привлечением квалифицированных специалистов. Качество полученных данных будет сильно зависеть от репрезентативности обрабатываемых текстов.
2. Модель предназначена для целей анализа, но не синтеза.
3. Затруднено расширение за счет включения в множества морфов дополнительных элементов, являющихся комбинациями 2-х и более морфов. Это потребует перенастроить модель путем повторной обработки большого количества текстов.

Для использования предложенной модели в реальных задачах потребуется программное обеспечение двух видов:

1. Программное обеспечение для сбора статистики по естественному языку, под который создается морфемный анализатор. Фактически это тот же самый морфемный анализатор, только он будет не использовать матрицы вероятностей, а заполнять их.
2. Программное обеспечение, использующее полученные матрицы вероятностей для морфемного анализа текста на естественном языке.

Следующим шагом развития предложенной модели видится в дополнении матриц вероятностей дополнительными строками, представляющими не отдельные морфы, а комбинации из 2-х и более морфов. Это позволит еще больше ускорить морфемный разбор.

Список литературы Математическая модель естественного языка для морфемного анализа с использованием статистических данных

Мытников А.Н., Мытникова Е.А., Кузнецова Л.Н., Солин С.Ю. Технологии разработки мобильных приложений // Теория и практика современной науки. - 2016. - № 4(10). - С. 504-507.
Fadeev S.G., Zheltov P.V. Optimization options of word forms morphemic analysis on the basis of statistical knowledge // Russian Linguistic Bulletin. - 2016. - № 3 (7). - с. 15. DOI: 10.18454/RULB.7.33