Модель оценки сложности языков: китайский язык с точки зрения английского языка
Автор: Осадчий А.А., Андросова С.В.
Журнал: Евразийский гуманитарный журнал @evrazgum-journal
Рубрика: Общие вопросы языкознания
Статья в выпуске: 1, 2025 года.
Бесплатный доступ
Данная статья посвящена попытке формализации существующей модели оценки сложности английского языка. Модель основана на типологическом подходе классификации языков, выработанном на опыте Отраслевой лаборатории машинного перевода Российского государственного педагогического университета им. А. И. Герцена. Цель настоящей статьи - предложить авторское расширение и формализацию модели оценки сложности языков по системе, разработанной Foreign Language Institute (FSI), для оценки сложности любого иностранного языка с точки зрения английского языка, и апробировать ее на известных данных по характеристикам китайского языка (фонетика, лексика, грамматика, система письма и др.). Основным методом исследования является моделирование. Автором статьи разбирается устройство данной модели, её критерии (переменные), изменение её результатов, и предлагается математическая формализация данной модели с последующими вычислительными экспериментами. В результате для китайского языка были рассчитаны два параметра: значение структурной сложности, которое составило 69 %, и индекс FSI, который оказался приблизительно равным 4,573. Эти значения позволили присвоить китайскому языку категорию V. Данная категория означает, что среднестатистическому человеку, изучающему китайский язык, для которого родным является английский, потребуется 85 недель для достижения уровня B2/C1.
Английский язык, сложности изучения языка, математическая модель, формализация, уровень языка, языковое родство, письменность
Короткий адрес: https://sciup.org/147251379
IDR: 147251379 | УДК: 811.581(07)
Текст научной статьи Модель оценки сложности языков: китайский язык с точки зрения английского языка
Введение и актуальность
Данная статья посвящена попытке формализации существующей модели оценки сложности английского языка. Модель основана на типологическом подходе классификации языков, выработанном на опыте Отраслевой лаборатории машинного перевода Российского государственного педагогического университета им. А. И. Герцена (Коваль, Пиотровский и др., 1993; Koval, Van Nunen 1999; Коваль, Ван Нюнен 1999; Koval et al. 2000) [Цит. по: Коваль 2005: 6–7]], и ориентирована на педагогов и лингвистов с целью разработки курсов для студентов, изучающих второй язык как иностранный [Jackson, Kaplan 1999: 72], а также на полевых лингвистов и миссионеров. Методология может быть применена и для создания более разветвлённой модели оценки сложности языков с точки зрения русского и других языков [Климцев, Каллаур 2022; Cruttenden 2001; Dan 2021].
Математическая модель является приближенной, и не отражает индивидуальных особенностей, но всё же она основана на 70-летнем опыте преподавания широкого спектра языков, накопленном Институтом дипломатической службы (Foreign Service Institute). FSI создал классификацию языков в зависимости от среднего времени, которое требуется студентам для достижения «профессионального рабочего уровня» B2/C1. Эта система является наиболее популярной, что обусловливает её выбор в данной научной статье.
Входными параметрами модели являются лингвистические факторы того или иного языка (фонетические, грамматические и лексические особенности, графика и орфография и т. п.), а также экстралингвистические факторы (наличие ресурсов для изучения), выходным же параметром является примерное время, которое нужно на изучение языка. Система FSI состоит из 5 категорий сложности языков, требующих для достижения уровня B2/C1 как минимум 24, 30, 36, 44 и 88 недель соответственно.
Основная часть
Постановка задачи
Разработчики системы FSI выделяют следующие факторы, которые позволяют присвоить языку определенную категорию: грамматика, сходство вокабуляра, фонетика, письменность, языковое родство, диалекты, ресурсы для изучения [FSI Language Courses 2024].
Для формализации модели оттолкнемся от того, 1) какие критерии (переменные) представляют наибольшую значимость, 2) как ведет себя функция выходных данных – сколько недель нужно для изучения языка той или иной категории.
Прогрессия времени изучения языка в зависимости от категории увеличивается неравномерно. Кроме того, более сложные элементы языка сильнее влияют на сложность языка в целом. При составлении функций переменных предлагается использовать функцию, имеющую следующий вид:
у = Vx
где x – некоторая переменная, а значение z зависит от важности параметра. График данной функции будет образовывать горизонтальную параболу, ограниченную [x, y] >= 0 при условии, если z – четное число. То есть, мы не будем брать z >= 3. Ось x означает уровень сложности языка, а ось y – время изучения языка.
Параметры вычисляются в порядке возрастания важности для создания порядка арифметических действий. Поскольку мы имеем дело с усредненной оценкой, сложим эти параметры и вычислим среднее арифметическое для каждой скобки.
Итоговая формула имеет следующий вид:

где LD (Language Difficulty) – уровень структурной сложности языка. Для близкородственных языков формула имеет следующий вид:
LD -

Отдельным случаем являются бесписьменные языки (W = 0). Для бесписьменных языков формула имеет следующий вид:

Необходимо конвертировать получившееся значения в шкалу FSI:
FSI=LD*2,639;
Для языков с D < 2,636 значение LD конвертируется по следующей формуле:
FSI=LD2.
;
Наконец, осталось вычислить время, требуемое на изучение языка для овладения уровнем B2/C1. Если FSI > 2,636; то количество недель вычисляется следующим образом:


;
Для FSI <= 2,636:
Хорда (8) достигает категории I в точке (24,441; 1); категории II в (30,194; 1,816); категории III в (35,975; 2,636). Хорда и парабола функции (7) пересекаются в точке (40,537; 3,283).
Реализация модели оценки сложности языков
Для создания программы было решено воспользоваться возможностями пакета программных продуктов (ППП) Microsoft Office, а именно табличным процессором Microsoft Excel, который предоставляет пользователю широкие возможности в области анализа данных, моделирования, прогнозирования, выполнения различных расчетов и даже написания программ для автоматизации этих расчетов с помощью языка программирования Visual Basic (VBA).
Несмотря на наличие других ППП, позволяющих создавать прикладные программы с более удобным интерфейсом, широкую популярность Excel обрел не только за свои возможности, но и за простоту использования. Более того, Microsoft унифицировала интерфейс офисных приложений (Word, Excel, PowerPoint), поэтому, освоив одну из программ, некоторые инструменты в остальных программах пакета будут знакомыми [MSoffice-Prowork.com 2024].
Итак, параметры модели в порядке убывания важности расположим следующим образом: письменность – W (Writing); родство языка – D (Distance); сходство вокабуляра – Vo (Vocabulary); грамматика – G (Grammar); фонетика – Ph (Phonetics); разновидности языка – Va (Varieties); ресурсы для изучения – R (Resources). Все параметры в модели являются вещественными числами (числами с плавающей запятой), и принимают значения от 1 до 5 (кроме сложности письма W, который может принимать значение 0, об этом ниже).
Формальные критерии оценки языка приведены в комментариях к ячейкам (рис. 1). Прикладная программа представляет собой таблицу, к которой можно добавлять новые колонки для каждого нового языка (рис. 1). Для описания каждого параметра представлены комментарии, где даются формальные критерии для оценивания параметров языка. Общий вид блок-схемы алгоритма выполнения программы представлен на рисунке 2.

Рисунок 1. Интерфейс прикладной программы

Рисунок 2. Блок-схема выполнения программы
Вычислительный эксперимент
Проведем оценку сложности китайского языка с точки зрения английского. FSI относит язык к категории V [FSI Language Courses 2024]. Установим параметры, исходя из следующих формальных критериев:
Грамматика (G): китайский относится к сино-тибетской языковой семье, является изолирующим языком со строгим порядком слов SVO. 3 балла.
Сходство вокабуляра (Vo): В китайском языке от 100 до 350 тыс. слов, 3426 из них (1–3 %) заимствованы из английского, что дает оценку в 4 балла. Однако, в силу слоговой природы китайского языка, иностранные слова сильно искажаются при передаче на китайский [Zhou 2015: 60], что повышает оценку параметра до 5 баллов.
Диалекты и социолекты (Va): большая диалектная раздробленность, носители китайского с севера не способны понимать носителей с юга. 5 баллов.
Степень языкового родства (D): китайский относится к сино-тибетским языкам, контакты с индоевропейскими не повлияли на структуру языка. 5 баллов.
Фонетика (Ph): некоторые ряды согласных звуков похожи друг на друга, например, zh и ch, c и z, s и x, и т. д. Четыре тона гласных способны менять смысл слова [Задоенко 2010]. 4 балла.
Популярность (Po): китайский является одним из самых распространенных языков мира, уступая разве что английскому. 1 балл.
Письменность: существует более 50 тыс. иероглифов, из которых для теста HSK 3-го уровня требуется освоить 600 иероглифов, а для HSK 6-го уровня – 2600. 5 баллов.
Итого: значение структурной сложности составляет 69 %; индекс FSI ≈ 4,573; категория V; 85 недель для достижения уровня B2/C1.
Заключение
В статье рассмотрена методика обучения курсов FSI, по которой были даны эти оценки, что безусловно пригодится в дальнейших исследованиях для создания модели оценки сложности языков с точки зрения не только русского, но и других языков. В ходе исследования была создана математическая модель, способная отражать влияние данных параметров на сложность языка, и создана программа на базе табличного процессора Microsoft Excel, позволяющая просто, удобно и адекватно рассчитывать сложность языков.
Расчеты, произведённые для китайского языка с точки зрения английского языка, показали, что значение структурной сложности составляет 69 %; индекс FSI ≈ 4,573. Это позволяет присвоить китайскому языку категорию V. Данная категория означает, что среднестатистическому человеку, изучающему китайский язык, для которого родным является английский, потребуется 85 недель для достижения уровня B2/C1.
Хотя разработанная модель адекватно сработала относительно оригинальной системы FSI для китайского языка, она нуждается в апробации на других языках для проверки её универсальности.