Проблема поддержки бурятского языка в компьютерных технологиях

Бесплатный доступ

В статье содержатся конкретные практические методы решения проблемы поддержки бурятского языка в компьютерных технологиях. Дается разъяснение, что такое кодовые страницы (стандарты кодировки) для разных платформ, стандарт Unicode и юникодовые шрифты. В конце статьи дается пошаговая инструкция, как на своем компьютере настроить языковые параметры и установить нужную раскладку клавиатуры для корректного ввода текстов на бурятском языке.

Тексты на бурятском языке, кодовые страницы, установка языковых параметров, раскладка клавиатуры

Короткий адрес: https://sciup.org/148179392

IDR: 148179392

Текст научной статьи Проблема поддержки бурятского языка в компьютерных технологиях

Большинство пользователей, набирающих и обрабатывающих электронные тексты на бурятском языке, сталкиваются с проблемой корректного ввода бурятских слов. Мы пришли к выводу, что использование бурятского языка в компьютерных технологиях - очень актуальная, требующая наискорейшего решения и государственной поддержки проблема.

Суть проблемы состоит в том, чтобы корректно вводить и отображать в компьютерных программах три бурятские буквы - Ү ү, Ө ө, Һ һ. В ней кроется множество нюансов, которые не изложить, просто написав статью. Данная статья не претендует на полное истолкование столь насущной проблемы, но решения, которые здесь собраны, должны помочь в большинстве рядовых случаев, связанных с вводом данных букв в современных текстовых редакторах. Решение, предлагаемое в данной статье, основывается на использовании юникодовых шрифтов и юникодовых кодировок (UTF-8, UTF-16).

Хотя современный алфавит бурятского языка основан на кириллице, в нем существуют три дополнительные буквы, которые, к сожалению, не вошли в состав кодировок, используемых в России:

  •    Windows-1251

  •    Koi8-r

  • •    Cp-866(альтернативная).

Исторически сложилось так, что в семействах операционных систем (ОС) Microsoft Windows отсутствует бурятская раскладка клавиатуры. На данный момент не существует единого решения проблемы. На самом деле проблему поддержки бурятского языка в Windows и других операционных системах можно разделить на две составляющие:

  • 1.    Ввод (набор) электронного текста на бурятском языке.

  • 2.    Использование бурятских символов в более специфических областях информационных технологий (ИТ), таких как программирование (визуальные компоненты, поддерживающие данные символы), разработка веб-сайтов и т.д.

Большинство пользователей решает данную задачу, заменяя три «заветных» символа на подобные им, используя разные способы:

  • 1.    Строчная һ и заглавная Һ заменяются на латинскую h либо на ħ;

  • 2.    Строчная ү и заглавная Ү заменяются на греческую γ (epsilon) или на латинскую заглавную Y;

  • 3.    Строчная ө и заглавная Ө заменяются на греческую θ (theta).

При этом искажается грамматическая и эстетическая корректность бурятских текстов. Мы будем рассматривать пути решения первой проблемы, т.к решение второй проблемы требует дополнительного детального рассмотрения.

Кодовая страница

Любой текст в ОС представляется с помощью программ, предназначенных для отображения и редактирования электронного текста, именуемых редакторами. Такими редакторами являются всеми известный Notepad (Блокнот), Microsoft Word, входящий в пакет Microsoft Office, WordPad и т.п. Сохраняется же такой текст в виде кодированного текстового файла с определенным, в зависимости от редактора, расширением. Например, *.txt (Notepad), *.doc (Microsoft Word) и т.д. Когда текстовый файл закодирован, он сохраняется в соответствии со стандартом кодировки – определенным набором правил, в соответствии с которыми каждому текстовому знаку присваивается числовое значение. При открытии текстового файла в редакторе стандарт кодировки (кодовая страница) помогает программе определить, каким образом следует вывести символы текста.

Корпорация Microsoft разработала собственные стандарты кодировки символов различных языков в семействах ОС Windows. Так, к примеру, для отображения китайских иероглифов используется стандарт кодировки GB2312-80 в случае упрощенного письма и стандарт кодировки Big5 – традиционного письма. Для отображения русских символов используется кодировка Windows-1251 (кириллица). Наряду с вышеназванной кодировкой существуют и другие кодовые таблицы для представления кириллицы в других ОС:

  • •    KOI8 (в системах на основе UNIX);

  •    MacCyrillic (на компьютерах Macintosh);

  • •    альтернативная кодировка (IBM code page 866 в системах DOS) и т.д.

Юникод (Unicode)

Помимо вышеперечисленных стандартов кодирования символов в мире был изобретен стандарт, позволяющий кодировать все существующие и несуществующие (исчезнувшие) в мире языки! Имя этого стандарта – Unicode. Суть этого стандарта заключается в том, что любому символу любого языка поставлен в соответствие определенный код. К примеру латинская буква A имеет код U+0041, а английское слово «Hello» будет иметь вид: «U+0048 U+0065 U+006C U+006C U+006F» в этом коде. Вы можете просмотреть код любого символа в Microsoft Word – нужно лишь набрать интересующий символ, а затем нажать комбинацию клавиш: Alt+ X.

Также в Microsoft Windows начиная с версии Windows2000 существует утилита charmap, позволяющая просматривать коды всех символов. К нашему счастью, Microsoft Word по умолчанию кодирует символы, благодаря чему в данном редакторе совершенно спокойно могут соседствовать китайские и японские иероглифы наряду с греческими и латинскими символами.

Поддержка шрифтов

Не все шрифты поддерживают столь необходимые нам символы. Дело в том, что создатели шрифтов должны буквально прорисовать все основные символы латиницы и в том числе все символы тех языков, поддержку которых они хотят обеспечить в создаваемом им шрифте. Отсюда становится ясно, почему многие дизайнерские шрифты имеют в своей поддержке только латинские символы. Вы можете сами проверить, какие из шрифтов поддерживают наши «заветные» три символа, в том же Microsoft Word, изменяя шрифт набранных вами символов.

Как включить многоязыковую поддержку

Далее хотелось бы продемонстрировать вам, как включить многоязыковую поддержку в Microsoft Office 2003. Она нужна пользователям для корректного отображения бурятских символов. На самом деле это компонента, расширяющая данный офис. Устанавливая это расширение, мы убиваем сразу несколько зайцев, т.к. устанавливаются дополнительные шрифты (юникодовые, китайский SimSun и др.), позволяющие без труда отображать/редактировать тексты на большинстве языков народов мира.

Для начала запускаем панель управления:Пуск - Панель управления - Установка и удаление программ . Откроется диалоговое окно. Среди установленных программ ищем MicrosoftOffice – профессиональный выпуск версии 2003 . Нажимаем кнопку Изменить. В следующем окне выбираем пункт Добавить или удалить компоненты . Далее откроется следующее окно, в котором ставим галочку напротив опции Расширенная настройка приложений. Раскрываем пункт меню Средства Office и ищем пункт Языковые параметры. Открываем данный пункт меню. Выбираем вкладку Запускать все с моего компьютера. Теперь осталось только нажать кнопку Обновить.

Настройка языковых параметров и раскладки клавиатуры

Дело в том, что существующая раскладка клавиатуры RU не позволяет вводить пользователю три «заветных» символа ө, һ, ү. В монгольской раскладке отсутствует буква һ. Мы пришли к выводу, что данная проблема решается с помощью казахской раскладки. В отличие от бурятского языка Windows поддерживает казахскую раскладку и поэтому временным на данном этапе и в то же время оптимальным решением является использование казахской раскладки (KK), т.к. в ней все буквы кириллицы остаются на тех же местах, что и в русской раскладке (RU). Это очень удобно для тех, кто набирает десятипальцевым методом. Нужно уточнить, что данная раскладка оправдывает себя лишь в текстовых редакторах с поддержкой юникода. Например, при сохранении текста на бурятском языке, набранного в редакторе Блокнот, нужно обязательно выбирать в параметрах сохранения кодировку UTF-8 или Юникод, иначе при следующем открытии файла вместо заветных букв вы получите заменяющие их значки.

Далее для установки нужной раскладки клавиатуры вызываем панель управления: Пуск - Панель управления - Язык и региональные стандарты . В открывшемся диалоговом окне выбираем вкладку Языки. Нажимаем кнопку Подробнее. В следующем диалоговом окне Языки и службы текстового ввода по кнопке Добавить выберите из списка языков ввода Казахский и такую же раскладку клавиатуры. Теперь у вас на панели задач появилась дополнительная раскладка (КК), в которой во втором ряду расположены необходимые нам символы:

Таким образом, настроив языковые параметры и установив дополнительную раскладку клавиатуры на своем компьютере, вы можете набирать тексты на бурятском языке легко и с удовольствием. Например, после установки всех настроек попробуйте набрать несколько пословиц на бурятском языке в редакторе Блокнот и сохраните файл в кодировке Юникод. Закройте редактор, заново откройте файл и убедитесь, что все символы корректно отображены без заменяющих значков. Желаем успехов в деле развития родного языка!

Дармаева Роза Дашидондоковна, старший преподаватель кафедры вычислительной техники и информатики Бурятский государственный университет.

Darmaeva Roza Dashievna , senior teacher of department of сomputer sciences, Buryat State University.

Статья научная