Оптимизация математической модели естественного языка для морфемного анализа
Бесплатный доступ
В статье рассматривается оптимизация ранее предложенной расширенной математической модели для морфемного анализа словоформ естественного языка, создаваемой на основе статистических данных. Оптимизация опирается на то, что вероятность встречи морфа или комбинации морфов в естественном языке может зависеть от места этого морфа в соответствующей морфемной группе. Оптимизация позволяет уменьшить количество элементов в матрицах вероятностей за счет разбиения матриц и последующего исключения из них нулевых строк. Рассмотрены достоинства и недостатки предложенной оптимизации.
Морфемный анализ, словоформа, морф, математическая модель, оптимизация
Короткий адрес: https://sciup.org/140282973
IDR: 140282973
Текст научной статьи Оптимизация математической модели естественного языка для морфемного анализа
В статье [2] предложена расширенная математическая модель естественного языка для морфемного разбора на основе статистических данных. Данную модель можно оптимизировать за счет уменьшения размерностей используемых матриц и тем самым ускорить морфемный разбор словоформ.
Расширенная модель делит словоформу на 3 морфемных группы: префиксную, постфиксную и группу корней [3]. Каждая из групп представлена в модели 2-мя матрицами:
-
• вектор-столбец морфемной группы Mext :
ГМ
ь2
6м & ^ 2
VPrA
-
• матрица вероятностей для разбора морфемной группы Pext
Г P1(61)P2(61)
Р к (Ь 1 )1
P k (6 2 )
Pk(6M )
P k (P 1 )
P k (^ 2)
P1(6() P2(d2)
P1(6M)P2(6M) P№) P ( (to P 1 (P 2 )P 2 (^ 2)
-P1(Pr-) P(CRr)
PM*
где
-
b - i -ый морф морфемной группы;
P i - i -ая комбинация морфов морфемной группы;
М - количество морфов в морфемной группе;
R - количество комбинаций морфов в морфемной группе;
Р у С^) - вероятность встречи х на j -ом шаге;
k - максимальное число шагов при анализе данной морфемной группы.
В естественных языках морфы внутри своих группы встречаются неравномерно: некоторые морфы могут не встречаться, например, в начале или конце групп. Следовательно, нет смысла проводить проверки на их наличие в начале или конце группы соответственно. Исключая часть морфов и их комбинаций из проверок на определенных шагах, можно добиться ускорения морфемного анализа.
Рассмотрим пример морфемной группы для упрощенного естественного языка. Допустим, что в ней всего 3 морфа, 2 комбинации морфов и максимальное число шагов равно 4. Матрица вероятностей Pext в этом случае будет иметь следующий вид:
Р 1 — Р3 - комбинации морфов;
P j (x') - вероятность встречи х на j -ом шаге.
Предположим, что морфы b4, b5 и комбинация морфов Р3 не встречаются в начале морфемной группы (1 и 2 шаги разбора), а морфы b1, b2 и комбинация морфов / - в конце морфемной группы (3 и 4 шаги разбора). Следовательно, соответствующие им вероятности P4(b4), P2(b4), P1(bs), P2(b5), Р1(/^з), Р2(Рз'), P3(b1), P4(b1), P3(b2), P4(b2), P3(/1), P4(/1) будут равны нулю и матрица вероятностей будет иметь следующий вид:
P1 ( b1 ) |
P 2 (b 1 ) |
0 |
0 |
P 1 (b 2 ) |
P2(b2 ) |
0 |
0 |
P 1 (b 3 ) |
P2(b3 ) |
P3(b3 ) |
P^ s ) |
0 |
0 |
P 3 (b 4 ) |
P 4 (b 4 ) |
0 |
0 |
P3(b5 ) |
P 4 (b g ) |
P 1 (// 1 ) |
P 2 (P 1 ) |
0 |
0 |
P 1 (&) |
P 2 (^ 2 ) |
P3(/2 ) |
P 4 (/ 2 ) |
L 0 |
0 |
P3(/3 ) |
P4(/ 3 )J |
Данную матрицу можно разбить на 2 матрицы - для 1-2 шагов и 3-4
шагов разбора:
• матрица вероятностей P12 для 1-2 шагов разбора морфемной группы:
P1(b1 ) P2(b1 ) P 1 (b 2 ) P 2 (b 2 ) P1 ( b3 ) P2 ( b3 ) 0 0 0 0 P 1 (/ 1 ) P 2 (/ 1 ) P 1 (/ 2 ) P 2 (/ 2 ) L 0 0 J |
• матрица вероятностей P34 для 3-4 шагов разбора морфемной группы:
0 |
0 |
0 |
0 |
P 3 (b 3 ) |
P 4 (b 3 ) |
P 3 (b 4 ) |
P 4 (b 4 ) |
P 3 (b5) |
P 4 (b5) |
0 |
0 |
P 3 (/ 2 ) |
P 4 (/ 2 ) |
- P3(/3) |
P 4 (/ 3 )J |
Можно заметить, что в каждую из этих матриц вошли строки из нулей. Это означает, что соответствующим им морфы и комбинации морфов не встречаются на данных шагах разбора. Следовательно, нет смысла хранить информацию о них - соответствующие им строки можно удалить из матриц вероятностей.
После удаления строк матрицы вероятностей примут следующий вид:
-
• матрица вероятностей Р12 :
Р1( Ь 1) Р2 (Ь 1 )
Р 1 (Ь 2) Р 2 (Ь 2)
РЖ) Р2(Ьз) РЖ) Р2(Р1) - Р1 (/^ 2 ) Р2( ^ 2 )-
-
• матрица вероятностей Р34:
Р3( ^ 3 ) Р4( ^ 3 )
Р з (Ь 4) Р 4 (Ь 4) РзЖ РММ Р з (Р2) I^P v ' - Р3( Р з') Р4( /? 3 )-
В результате проделанной оптимизации вместо одной матрицы вероятностей Рext из 32 элементов получены 2 матрицы Р12 и Р34 с общим количеством элементов, равным 20. Таким образом для данного примера удалось сократить количество элементов более чем в 1.5 раза. Кроме того, будет ускорена и проверка на каждом шаге, т.к. вместо 8-ми проверок (по одной на каждую строку матрицы вероятностей) потребуется выполнять лишь 5 проверок.
Таким образом каждая морфемная группа теперь будет иметь не 2, а 2*n матриц. Но общее количество элементов в матрицах вероятностей будет меньше и количество шагов при разборе морфемной группы тоже уменьшится.
В естественном языке величина оптимизации будет зависеть от того, насколько сильно зависят вероятности появления морфов от их места в морфемной группе. Предполагается, что наибольший выигрыш данная оптимизация принесет для агглютинативных языков, в которых может содержаться много аффиксов в одном слове.
Рассмотрим достоинства и недостатки оптимизированной математической модели в сравнении с ранее предложенной [2].
Достоинства:
-
1. Позволяет ускорить морфемный разбор за счет исключения проверки тех морфов и их комбинаций, которые не встречаются на данном шаге разбора.
-
2. Сокращает расходы вычислительных ресурсов (оперативная память и время работы процессоров) для проведения морфемного анализа с помощью вычислительной техники. Особенно это актуально для мобильных приложений, где вычислительная мощность существенно ограничена [1].
-
3. Настройка модели усложняется из-за необходимости не только строить матрицы вероятностей, но и выбирать оптимальное разбиение этих матриц для разных шагов разбора.
-
4. Усложняется сопровождение модели из-за увеличения в ней количества матриц и возможных изменений границ разбиения матрицы вероятностей Pext на отдельные матрицы.
-
5. При недостаточно накопленной статистике (статистический анализ проводился на ограниченном наборе текстов) может оказаться, что вероятности некоторых морфов на некоторых шагах разбора окажутся равными нулю, хотя на самом деле они отличны от нуля. Это может привести к тому, что после разбиения соответствующие им строки из матриц вероятностей будут исключены. В результате морфемный разбор по этим матрицам может не дать успешного результата. Данная проблема решаема, если в подобных случаях в качестве аварийного варианта продолжить разбор по полному набору морфов данной морфемной группы.
Недостатки:
Список литературы Оптимизация математической модели естественного языка для морфемного анализа
- Мытников А.Н., Мытникова Е.А., Кузнецова Л.Н., Солин С.Ю. Технологии разработки мобильных приложений // Теория и практика современной науки. - 2016. - № 4(10). - С. 504-507.
- Фадеев С.Г. Расширение математической модели естественного языка для морфемного анализа // Состояние и перспективы развития ИТ-образования: Сборник докладов и научных статей Всероссийской научно-практической конференции (посвящается 50-летию Чувашского государственного университета им. И.Н. Ульянова). (г. Чебоксары, 16-18 ноября 2017 г). 2018. - С. 272-277.
- Fadeev S.G., Zheltov P.V. Optimization options of word forms morphemic analysis on the basis of statistical knowledge // Russian Linguistic Bulletin. - 2016. - № 3 (7). - с.15. DOI: 10.18454/RULB.7.33