О параметрической модели распределения длины слов на примере литературных текстов на испанском, итальянском и шведском языках
Автор: Палий Ирина Абрамовна
Журнал: Бюллетень науки и практики @bulletennauki
Рубрика: Физико-математические науки
Статья в выпуске: 8 (21), 2017 года.
Бесплатный доступ
Исследуются закономерности, которым подчиняются относительные частоты длин слов, если разбить весь ряд относительных частот на несколько отрезков. В случае испанского языка отрезков четыре: длины 1-2 (линейная функция с положительным наклоном); длины 3-5 (полином второго порядка с ветвями, направленными вверх); длины 6-11 (линейная функция с отрицательным наклоном); длины 12 и более (геометрическая прогрессия со знаменателем меньше 1). Здесь n - длина слова (число букв в нем). В случае итальянского языка отрезков тоже четыре: длины 1-3 и 4-6 (полиномы второго порядка с ветвями, направленными вниз); длины 7-11 (геометрическая прогрессия со знаменателем меньше 1); длины 12 и более (геометрическая прогрессия со знаменателем меньше 1). В случае шведского языка отрезков три: длины 1-3 (полином второго порядка с ветвями, направленными вверх); длины 4-6 (полином второго порядка с ветвями, направленными вниз); длины 7 и более (геометрическая прогрессия со знаменателем меньше 1). Коэффициенты уравнений - это параметры, которые можно оценить для данного текста на основании его статистических характеристик. Рассматривались пять текстов на испанском и шведском языках и шесть текстов на итальянском языке. Затем все тексты на данном языке объединялись в один текст и рассматривалось распределение относительных частот длин слов в таком объединенном тексте.
Текст на испанском языке, текст на итальянском языке, текст на шведском языке, длины слов, параметрическая модель распределения длины слов
Короткий адрес: https://sciup.org/14111682
IDR: 14111682 | УДК: 519.22 | DOI: 10.5281/zenodo.842975
On the parametric model of length distribution of the words on the literary texts example in Spanish, Italian and Swedish languages
We study regularities, to which the relative frequencies of the word lengths are subject, if the entire series of relative frequencies is divided into several segments. In the case of the Spanish language, there are four segments: lengths 1-2 (linear function with positive slope); Lengths 3-5 (a polynomial of the second order with branches directed upwards); Lengths 6-11 (linear function with negative slope); Length 12 and more (geometric progression with a denominator less than 1). Here n is the length of the word (the number of letters in it). In the case of the Italian language, there are also four lengths: lengths 1-3 and 4-6 (polynomials of the second order with branches directed downwards); Length 7-11 (geometric progression with denominator less than 1); Length 12 and more (geometric progression with a denominator less than 1). In the case of the Swedish language, there are three segments: lengths 1-3 (a second-order polynomial with branches pointing upwards); Length 4-6 (second-order polynomial with branches directed downwards); Length 7 and more (geometric progression with a denominator less than 1). Coefficients of equations are parameters that can be estimated for a given text on the basis of its statistical characteristics. Five texts in Spanish and Swedish and six texts in Italian were considered. Then all the texts in the given language were combined into one text and distribution was considered.
Список литературы О параметрической модели распределения длины слов на примере литературных текстов на испанском, итальянском и шведском языках
- Палий И. А. О параметрической модели распределения длины слов на примере языка иврит//Science and World. International Scientific Journal. 2017. Т 1. №1 (41). С. 8-11.
- Палий И. А. О параметрической модели распределения длины слов на примере литературных текстов на немецком, французском и новогреческом языках//Science and World. International Scientific Journal. 2017. Т 1. №3 (43). С. 24-29.