Математическая модель естественного языка для морфемного анализа с использованием статистических данных
Бесплатный доступ
В статье предложена математическая модель для морфемного анализа словоформ естественного языка. Модель основана на матрицах вероятностей. Предложенная модель позволяет оптимизировать морфемный анализ на основе предварительно полученных статистических данных. Рассмотрены достоинства и недостатки предложенной модели.
Морфемный анализ, словоформа, морф, оптимизация, математическая модель
Короткий адрес: https://sciup.org/140278568
IDR: 140278568
Mathematical model of natural language for morphemic analysis with use of statistical data
The article proposes a mathematical model for morphemic analysis of word forms of natural language. The model is based on probability matrices. The proposed model allows to optimize the morphemic analysis on the basis of previously obtained statistical data. The advantages and disadvantages of the proposed model are considered.
Текст научной статьи Математическая модель естественного языка для морфемного анализа с использованием статистических данных
Одним из этапов программного анализа текста на естественном языке является морфемный анализ - разбиение словоформ на морфы, т.е. на минимальные значимые единицы текста, несущие морфологическую информацию. Различают 2 типа морфов – корни и аффиксы. Корни являются носителями лексических значений слов, аффиксы служат для грамматических и словообразовательных целей.
Если естественный язык имеет сравнительно небольшое число аффиксов, которые при этом не образуют длинные последовательности, то задача программного разбора на морфы может быть решена «в лоб» - путем составления соответствующего словаря для всех встречающихся в языке словоформ. Но такой подход нельзя признать универсальным, т.к. он удобен лишь для флективных языков, в которых количество аффиксов в словоформе сравнительно невелико. Для агглютинативных языков такой подход неприменим, т.к. в них число аффиксов может быть большим (несколько сотен), а количество их возможных комбинаций – огромным. Составить словарь всех возможных словоформ в таких случаях представляется нецелесообразным – проще выполнить морфемный разбор «на месте».
Сложность автоматизации задачи морфемного анализа состоит в том, что заранее неизвестно, где заканчивается один морф и начинается другой. Кроме того, в естественных языках присутствует омонимия, когда одна и та же грамматическая форма может иметь несколько вариантов разбора. Вследствие этого морфемный разбор даже небольшого текста может потребовать значительных вычислительных ресурсов, что затрудняет его применение, например, в мобильных приложениях, где вычислительная мощность существенно ограничена [1].
Морфемный разбор можно оптимизировать, если учитывать особенности естественных языков. Например, словоформу можно разбить на три относительно независимые группы морфов – префиксную группу, группу корней и постфиксную группу, которые можно разбирать отдельно [2]. Каждая из групп имеет свой состав морфов.
Обозначим через A={a1, a2, …, aN} множество морфов префиксной группы, B={b1, b2, …, bM} - множество морфов группы корней и C={c1, c2, …, cK} - множество морфов постфиксной группы. N, M и K – соответственно количество морфов (мощность множества) префиксной группы, группы корней и постфиксной группы для заданного естественного языка.
Опираясь на решение, описанное в статье [2], можно предложить математическую модель естественного языка, предназначенную для морфемного разбора и состоящую из 6 матриц:
-
3 матрицы – это вектор-столбцы размерностью N×1, M×1, K×1, полученные из соответствующих множеств A, B, C;
-
3 матрицы размерностью N×n, M×m, K×k, где n, m, k – максимальное число шагов при анализе префиксной группы, группы корней и постфиксной группы соответственно.
Величины n, m и k определяются морфологическими характеристиками конкретного естественного языка.
Префиксная группа:
Группа корней:
Постфиксная группа:
C i - i -ый морф множества группы корней C;
P j (C i ) - вероятность встречи C i на j-ом шаге.
Задав указанные матрицы, мы определим параметры статистической модели естественного языка, предназначенную для выполнения и оптимизации морфемного разбора. Каждый естественный язык будет описываться своей шестеркой матриц.
Рассмотрим достоинства и недостатки предложенной модели.
Достоинства:
-
1. Универсальность – подходит для всех типов естественных
-
2. В программном обеспечении, основанном на предложенной
-
3. Для каждого языка можно иметь несколько матриц вероятностей. Например, одни матрицы будут использоваться для официально-делового стиля, другие - для разговорного стиля, третьи - для художественного и т.д.
-
4. Модель хорошо ложится на реляционную модель данных – наиболее распространенную и отработанную в настоящее время.
языков, включая агглютинативные.
модели, данные будут отделены от алгоритма разбора – достаточно будет подключить другие матрицы и модель сможет работать с другим языком. Это позволит создавать универсальные программы морфемного разбора, способные работать с любыми языками. Кроме того, это дает возможность удаленно обновлять программное обеспечение морфемного разбора, заменяя только данные - без переустановки самой программы.
Недостатки:
-
1. Т.к. модель основана на статистических данных, то требуется ее предварительная настройка путем обработки большого количества текстов с привлечением квалифицированных специалистов. Качество полученных данных будет сильно зависеть от репрезентативности обрабатываемых текстов.
-
2. Модель предназначена для целей анализа, но не синтеза.
-
3. Затруднено расширение за счет включения в множества морфов дополнительных элементов, являющихся комбинациями 2-х и более морфов. Это потребует перенастроить модель путем повторной обработки большого количества текстов.
Для использования предложенной модели в реальных задачах потребуется программное обеспечение двух видов:
-
1. Программное обеспечение для сбора статистики по естественному языку, под который создается морфемный анализатор. Фактически это тот же самый морфемный анализатор, только он будет не использовать матрицы вероятностей, а заполнять их.
-
2. Программное обеспечение, использующее полученные матрицы вероятностей для морфемного анализа текста на естественном языке.
Следующим шагом развития предложенной модели видится в дополнении матриц вероятностей дополнительными строками, представляющими не отдельные морфы, а комбинации из 2-х и более морфов. Это позволит еще больше ускорить морфемный разбор.
Список литературы Математическая модель естественного языка для морфемного анализа с использованием статистических данных
- Мытников А.Н., Мытникова Е.А., Кузнецова Л.Н., Солин С.Ю. Технологии разработки мобильных приложений // Теория и практика современной науки. - 2016. - № 4(10). - С. 504-507.
- Fadeev S.G., Zheltov P.V. Optimization options of word forms morphemic analysis on the basis of statistical knowledge // Russian Linguistic Bulletin. - 2016. - № 3 (7). - с. 15. DOI: 10.18454/RULB.7.33