Математическая модель естественного языка для морфемного анализа с использованием статистических данных
Бесплатный доступ
В статье предложена математическая модель для морфемного анализа словоформ естественного языка. Модель основана на матрицах вероятностей. Предложенная модель позволяет оптимизировать морфемный анализ на основе предварительно полученных статистических данных. Рассмотрены достоинства и недостатки предложенной модели.
Морфемный анализ, словоформа, морф, оптимизация, математическая модель
Короткий адрес: https://sciup.org/140278568
IDR: 140278568
Текст научной статьи Математическая модель естественного языка для морфемного анализа с использованием статистических данных
Одним из этапов программного анализа текста на естественном языке является морфемный анализ - разбиение словоформ на морфы, т.е. на минимальные значимые единицы текста, несущие морфологическую информацию. Различают 2 типа морфов – корни и аффиксы. Корни являются носителями лексических значений слов, аффиксы служат для грамматических и словообразовательных целей.
Если естественный язык имеет сравнительно небольшое число аффиксов, которые при этом не образуют длинные последовательности, то задача программного разбора на морфы может быть решена «в лоб» - путем составления соответствующего словаря для всех встречающихся в языке словоформ. Но такой подход нельзя признать универсальным, т.к. он удобен лишь для флективных языков, в которых количество аффиксов в словоформе сравнительно невелико. Для агглютинативных языков такой подход неприменим, т.к. в них число аффиксов может быть большим (несколько сотен), а количество их возможных комбинаций – огромным. Составить словарь всех возможных словоформ в таких случаях представляется нецелесообразным – проще выполнить морфемный разбор «на месте».
Сложность автоматизации задачи морфемного анализа состоит в том, что заранее неизвестно, где заканчивается один морф и начинается другой. Кроме того, в естественных языках присутствует омонимия, когда одна и та же грамматическая форма может иметь несколько вариантов разбора. Вследствие этого морфемный разбор даже небольшого текста может потребовать значительных вычислительных ресурсов, что затрудняет его применение, например, в мобильных приложениях, где вычислительная мощность существенно ограничена [1].
Морфемный разбор можно оптимизировать, если учитывать особенности естественных языков. Например, словоформу можно разбить на три относительно независимые группы морфов – префиксную группу, группу корней и постфиксную группу, которые можно разбирать отдельно [2]. Каждая из групп имеет свой состав морфов.
Обозначим через A={a1, a2, …, aN} множество морфов префиксной группы, B={b1, b2, …, bM} - множество морфов группы корней и C={c1, c2, …, cK} - множество морфов постфиксной группы. N, M и K – соответственно количество морфов (мощность множества) префиксной группы, группы корней и постфиксной группы для заданного естественного языка.
Опираясь на решение, описанное в статье [2], можно предложить математическую модель естественного языка, предназначенную для морфемного разбора и состоящую из 6 матриц:
-
3 матрицы – это вектор-столбцы размерностью N×1, M×1, K×1, полученные из соответствующих множеств A, B, C;
-
3 матрицы размерностью N×n, M×m, K×k, где n, m, k – максимальное число шагов при анализе префиксной группы, группы корней и постфиксной группы соответственно.
Величины n, m и k определяются морфологическими характеристиками конкретного естественного языка.
Префиксная группа:
Группа корней:
Постфиксная группа:
C i - i -ый морф множества группы корней C;
P j (C i ) - вероятность встречи C i на j-ом шаге.
Задав указанные матрицы, мы определим параметры статистической модели естественного языка, предназначенную для выполнения и оптимизации морфемного разбора. Каждый естественный язык будет описываться своей шестеркой матриц.
Рассмотрим достоинства и недостатки предложенной модели.
Достоинства:
-
1. Универсальность – подходит для всех типов естественных
-
2. В программном обеспечении, основанном на предложенной
-
3. Для каждого языка можно иметь несколько матриц вероятностей. Например, одни матрицы будут использоваться для официально-делового стиля, другие - для разговорного стиля, третьи - для художественного и т.д.
-
4. Модель хорошо ложится на реляционную модель данных – наиболее распространенную и отработанную в настоящее время.
языков, включая агглютинативные.
модели, данные будут отделены от алгоритма разбора – достаточно будет подключить другие матрицы и модель сможет работать с другим языком. Это позволит создавать универсальные программы морфемного разбора, способные работать с любыми языками. Кроме того, это дает возможность удаленно обновлять программное обеспечение морфемного разбора, заменяя только данные - без переустановки самой программы.
Недостатки:
-
1. Т.к. модель основана на статистических данных, то требуется ее предварительная настройка путем обработки большого количества текстов с привлечением квалифицированных специалистов. Качество полученных данных будет сильно зависеть от репрезентативности обрабатываемых текстов.
-
2. Модель предназначена для целей анализа, но не синтеза.
-
3. Затруднено расширение за счет включения в множества морфов дополнительных элементов, являющихся комбинациями 2-х и более морфов. Это потребует перенастроить модель путем повторной обработки большого количества текстов.
Для использования предложенной модели в реальных задачах потребуется программное обеспечение двух видов:
-
1. Программное обеспечение для сбора статистики по естественному языку, под который создается морфемный анализатор. Фактически это тот же самый морфемный анализатор, только он будет не использовать матрицы вероятностей, а заполнять их.
-
2. Программное обеспечение, использующее полученные матрицы вероятностей для морфемного анализа текста на естественном языке.
Следующим шагом развития предложенной модели видится в дополнении матриц вероятностей дополнительными строками, представляющими не отдельные морфы, а комбинации из 2-х и более морфов. Это позволит еще больше ускорить морфемный разбор.
Список литературы Математическая модель естественного языка для морфемного анализа с использованием статистических данных
- Мытников А.Н., Мытникова Е.А., Кузнецова Л.Н., Солин С.Ю. Технологии разработки мобильных приложений // Теория и практика современной науки. - 2016. - № 4(10). - С. 504-507.
- Fadeev S.G., Zheltov P.V. Optimization options of word forms morphemic analysis on the basis of statistical knowledge // Russian Linguistic Bulletin. - 2016. - № 3 (7). - с. 15. DOI: 10.18454/RULB.7.33