Опыт решения практической задачи по автоматизированной расстановке буквы ё в русскоязычных текстах

Бесплатный доступ

Описывается сценарий частичной автоматизации замены буквы Е на букву Ё в конкретных условиях редакционно-издательской деятельности. В целях решения практической задачи проведено статистическое исследование возможных вариантов графического окружения буквы Ё на материале тематического словаря и проанализированы полученные результаты для создания простого механизма, учитывающего специфику и возможности применяемых программных инструментов, который не предполагал бы длительной и трудоёмкой разработки плагинов, расширений или баз данных. Требуемая функциональность была успешно реализована с помощью текстового поиска с применением регулярных выражений.

Еще

Прикладная лингвистика, автоматизированная обработка текстов, графика, редакционно-издательская деятельность, статистические методы обработки языкового материала, русский язык

Короткий адрес: https://sciup.org/148309463

IDR: 148309463   |   DOI: 10.25586/RNU.V925X.20.03.P.053

Текст научной статьи Опыт решения практической задачи по автоматизированной расстановке буквы ё в русскоязычных текстах

54 в ыпуск 3/2020

Одним из практических аспектов литературного редактирования и корректуры в издательской деятельности является решение вопроса о расстановке буквы Ё, или, как иногда говорят отдельные авторы, «ёфикации» текста. Следует заметить, что сама по себе идея «ёфикации» является предметом споров. Хорошо известно, что «Правила русской орфографии и пунктуации» [6] предписывают употреблять Ё только в тех случаях, когда это необходимо для избегания разночтений. Эти указания имеют два следствия. С одной стороны, «факультативность» буквы Ё кажется неочевидной и склоняет авторов и редакторов к дискуссиям о корректности этого правила. С другой стороны, расстановка буквы Ё в текстах превращается в прикладную задачу, которая требует решения на том или ином уровне в зависимости от того, какая политика принята в конкретной редакции или издательстве.

Прежде чем говорить о способах решения упомянутой задачи, хотелось бы вкратце описать известные нам точки зрения на проблему «ёфикации» как таковую. Полагаем, что это поможет составить более ясное представление о контексте исследования.

Представляется возможным утверждать, что идея об отказе от использования буквы Ё или о её употреблении только в целях разрешения омографии в конечном счёте сводится к принципу языковой экономии – передавать информацию с приложением как можно меньшего количества усилий. Сложившаяся практика, отражённая в «Правилах...» 1956 г., опирается, по-видимому, на стремление отказаться от избыточности в условиях, когда читатель на основании опыта и контекста способен различить Е и Ё даже при их одинаковой записи – по аналогии, скажем, с дифференциацией омографов, различающихся ударением. Во главу угла, таким образом, ставится узус: «важен сам факт стихийно сложившегося и естественно сохраняющегося неразличения двух гласных букв», который «говорит о востребованности и легитимности такого упрощения системы букв. Оно не препятствует взаимопониманию: иначе выработались бы нормы различения данных букв» [1]. Также в процитированной работе обращают внимание на то, что таким образом проще сохранять единообразие морфем. Наконец, последовательное употребление Ё создавало бы неразрешимые противоречия при печатании старых текстов, где невозможно определить, какое именно произношение имел в виду автор (см. об этом: [5; 8]).

В противовес существующему правилу высказываются, например, следующие рассуждения:

  • 1.    Буква Ё не является вариантом буквы Е, несмотря на аналогичное написание, поэтому смешивать их на письме странно. С графической точки зрения Е соответствует звуку [э], Ё – звуку [о], включая йотированные варианты. В то же время не являются факультативными, например, Й или Щ, хотя, в частности, в последнем случае нетрудно было бы предложить аргумент о том, что Щ – это не более чем долгое мягкое Ш, а твёрдые и мягкие согласные в русской графике, как известно, отдельных букв не имеют (см., например: [2; 4]).

  • 2.    Содержащееся в «Правилах...» 1956 г. предписание употреблять Ё постольку, поскольку это устраняет смысловые неоднозначности, создаёт эффект произвольности: само представление о неоднозначности зависит от пишущего, чьё восприятие может отличаться от идей читающего. Грубо говоря, автору текста может показаться, что всё и так ясно, в то время как читатель столкнётся с ситуацией, когда даже широкий контекст не помогает извлечь из текста

  • 3.    Неупотребление буквы Ё является ошибкой, поскольку в орфографическом словаре все соответствующие словоформы записаны именно с Ё.

Головко Н.В. Опыт решения практической задачи...

правильный смысл (см. пример со стихотворением А. Барто: [2]).

Лично мы считаем аргумент № 3 достаточно весомым для того, чтобы им руководствоваться: если слово в нормативном словаре записано определённым образом, то именно так оно и должно писаться. В противном случае само понятие нормы выглядит пошатнувшимся: норма существует, но в то же время ей словно бы и необязательно следовать. Поэтому мы, начав личную редакторскую практику в сетевом средстве массовой информации, решили пользоваться оговоркой, содержащейся в академическом справочнике «Правила русской орфографии и пунктуации» 2006 г. [7]: автор или редактор конкретного издания вправе использовать букву Ё во всех возможных случаях по своему усмотрению.

Заметим, впрочем, что в целом принцип различения омографов может быть хорошей и удобной альтернативой. В отличие от задачи по расстановке буквы Ё во всех возможных случаях, он предполагает составление заведомо конечного списка слов, требующих проверки. Однако в открытом доступе отсутствуют полные списки омографов с Ё (хотя нам известны некоторые попытки в смежных областях; см., например: [3; 9]), самостоятельное составление такого списка представляется весьма трудоёмким и не гарантирующим его полноты предприятием, к тому же задача полной «ёфикации» более универсальна: в некоторых изданиях, таких как книги для детей младшего возраста или учебные издания для изучающих русский язык как иностранный, обойтись разрешением омографиче-ских неоднозначностей нельзя. Наконец, не следует забывать и о других аспектах предписаний «Правил русской орфографии и пунктуации», например об обязательном употреблении Ё в малоизвестных наименованиях вроде «река Олёкма».

Руководствуясь изложенными рассуждениями, мы пришли к необходимости решения практической задачи по выделению в русскоязычных текстах тех мест, где может требоваться замена буквы Е на букву Ё. Эта задача рассматривается нами как альтернатива полному прочтению текста с самостоятельным ручным поиском слов, нуждающихся в «ёфикации». Несомненно, что при должной сноровке и орфографической зоркости обнаружение слов, которые пишутся с буквой Ё, не является непреодолимым препятствием, однако нам хотелось бы обеспечить этому процессу частичную техническую (вычислительную) поддержку, которая позволила бы избежать случайного пропуска таких слов и ускорить соответствующую часть вычитки за счёт концентрации на тех местах, где буква Ё действительно может присутствовать. Также мы хотели обойтись минимальным инструментарием, доступным в нашей рабочей среде, – программным комплексом G Suite и его компонентом Google Docs, т.е. сформировать некий минимальный критерий, который можно было бы реализовать через встроенную функциональность текстового поиска, не разрабатывая программных расширений и не прибегая к обширным базам данных. Очевидно, в частности, что можно просто взять орфографический словарь и извлечь из него все слова с Ё; однако ввести в поисковую строку тысячи словоформ невозможно, и этот список опять же не был бы гарантированно исчерпывающим (т.е. универсальным).

Мы сформулировали и решили проверить простую гипотезу: возможно, существует конечный набор буквосочетаний,

56 в ыпуск 3/2020

в которых возможна буква Ё. Кажется очевидным, что в конкретном реальном языке могут использоваться отнюдь не все возможные сочетания звуков (а следовательно, и букв); таким образом, не исключено, что спектр допустимых окружений для букв Е и Ё различается.

В качестве источника материала мы взяли «Словарь употребления буквы Ё» (2009 г., около 20 000 слов), составленный известным сторонником последовательной «ёфикации» В.Т. Чумаковым [10].

Убеждения составителя словаря позволяют рассчитывать на то, что в последнем представлен как можно более широкий спектр случаев использования буквы Ё, включающий жаргонизмы, диалектную лексику и авторские неологизмы. Из списка слов полуавтоматическим способом (с использованием механизмов поиска в текстовом процессоре Microsoft Word 2016) были извлечены и проанализированы сочетания вида «символ + Ё» и «Ё + символ» (табл. 1–2).

Таблица 1

Сочетания вида «символ + Ё» и статистика по ним, ед.

№ п/п

Сочетание

Количество

№ п/п

Сочетание

Количество

№ п/п

Сочетание

Количество

1

Начало слова

1852

12

КЁ

63

23

ХЁ

2

2

АЁ

187

13

ЛЁ

2455

24

ЦЁ

2

3

БЁ

202

14

МЁ

511

25

ЧЁ

1032

4

ВЁ

546

15

НЁ

1366

26

ШЁ

356

5

ГЁ

32

16

ОЁ

206

27

ЩЁ

435

6

ДЁ

780

17

ПЁ

310

28

ЪЁ

214

7

ЕЁ

82

18

РЁ

1663

29

ЫЁ

3

8

ЖЁ

600

19

СЁ

425

30

ЬЁ

535

9

ЗЁ

291

20

ТЁ

1071

31

ЭЁ

1

10

ИЁ

123

21

УЁ

87

32

ЮЁ

25

11

ЙЁ

4

22

ФЁ

31

33

ЯЁ

0

Таблица 2

Сочетания вида «Ё + символ» и статистика по ним, ед.

№ п/п

Сочетание

Количество

№ п/п

Сочетание

Количество

№ п/п

Сочетание

Количество

1

Конец слова

419

12

ЁК

579

23

ЁХ

537

2

ЁА

0

13

ЁЛ

531

24

ЁЦ

2

3

ЁБ

262

14

ЁМ

853

25

ЁЧ

82

4

ЁВ

847

15

ЁН

5153

26

ЁШ

290

5

ЁГ

226

16

ЁО

0

27

ЁЩ

8

6

ЁД

133

17

ЁП

264

28

ЁЪ

0

7

ЁЕ

0

18

ЁР

1718

29

ЁЫ

0

8

ЁЖ

371

19

ЁС

521

30

ЁЬ

0

9

ЁЗ

245

20

ЁТ

2363

31

ЁЭ

0

10

ЁИ

0

21

ЁУ

1

32

ЁЮ

3

11

ЁЙ

73

22

ЁФ

18

33

ЁЯ

0

Головко Н.В. Опыт решения практической задачи...    57

Как видно из полученных данных, поиск сочетаний вида «символ + Ё» менее перспективен с точки зрения выделения буквосочетаний: предшествовать букве Ё может почти любая другая буква алфавита. В свою очередь, комбинации вида «Ё + + символ» оказались более пригодными для наших целей, поскольку даже при самом тщательном подходе к поиску максимально экзотических слов (включая придуманные самим составителем словаря) не удалось найти ни одной лексемы для 9 различных сочетаний. Целесообразно при этом заметить, что ни разу не встретившиеся сочетания буквы Ё с последующими гласными вполне возможны в случае буквы Е: театр, длиннее, идеи и т.п.

С учётом статистики, а также возможностей поискового механизма текстового процессора Google Docs, которые изначально были частью задачи, мы приняли решение использовать в качестве индикатора набор вариантов сочетаний вида «Е + символ» (в данном случае именно Е, поскольку обрабатываются тексты, в которых Е необходимо заменить на Ё). При этом узкая тематическая специфика конкретного СМИ, тексты которого подвергались редактированию, позволила нам дополнительно отсечь некоторые другие сочетания, такие как ЁЮ (все три варианта, встретившиеся в словаре, – это устаревшие окончания существительных типа землёю, которые не могут появиться в современном тексте) или ЁУ (единственное вхождение – название финского музыкального инструмента ёухикко, вероятность упоминания которого в текстах по информационной безопасности близка к нулевой). Для некоторых буквосочетаний мы добавили проверку комбинаций вида «символ + Е + символ».

На вопросе о проверке трёхсимвольных сочетаний, как представляется, следует остановиться отдельно. Наш анализ показал, что некоторые сочетания вида «Ё + символ» имеют крайне ограниченный набор возможных предшествующих символов: например, комбинация ЁП существует только в вариантах ЛЁП, РЁП, ТЁП и ШЁП. Следовательно, вспомогательное ограничение предшествующих символов могло бы сузить поиск и уменьшить количество отображаемых единиц. Мы, однако, использовали трёхсимвольные сочетания лишь частично в связи с фундаментальным ограничением поисковой функциональности текстового процессора Google Docs: при поиске по регулярному выражению каждая буква может входить в состав только одной отображаемой комбинации. Например, если обрабатывается написание «дешевый», то при поиске по трёхсимвольным сочетаниям будет выделено только «деш», в то время как вторая буква Е (которая как раз и подлежит замене на Ё) останется без маркировки, поскольку буква Ш уже рассмотрена как входящая в «деш» и, следовательно, не может входить в состав комбинации «шев». В силу этого применение трёхбуквенных сочетаний возможно лишь там, где среди возможных предшествующих букв нет тех, которые отобраны в набор основных комбинаций вида «Ё + символ». Кроме того, мы не обнаружили способа добавить во множество предшествующих символов обозначение начала слова, а следовательно, лексемы наподобие «ёмкость» также не будут выделены. Учитывая конкретные условия задачи, мы решили ограничиться главным образом двухсимвольными конструкциями, добавив трёхсимвольные там, где это не вызывает пересечений.

В то же время мы провели дополнительную проверку, сравнив результаты поиска в одном из редактированных текстов при использовании только трёхсимвольных комбинаций, только двухсимвольных соче-

58 в ыпуск 3/2020

таний и смешанного подхода, описанного в предыдущем предложении. Объём текста составлял около 25 000 знаков с пробелами и около 3000 слов. При максимально широком подходе (только «Ё + символ») поиск подсветил 1529 буквосочетаний, при максимально узком (только трёхбуквенные комбинации) – 1167, при смешанном – 1373. Таким образом, применение трёхсимвольных сочетаний уменьшило количество вхождений для проверки на 362 единицы (23,7%), смешанный подход – на 156 единиц (10,2%). Соответственно, с учётом проблематичности реализации максимально узкого варианта в конкретных условиях решаемой практической задачи – каждое сочетание пришлось бы проверять отдельно, чтобы они не создавали помех друг другу, – смешанный подход представляется удовлетворительным компромиссом.

По итогам проведённой статистической и аналитической работы мы сформировали регулярное выражение для поисковой функциональности текстового процессора Google Docs, которое позволяет нам подсвечивать в редактируемом тексте возможные места замены буквы Е на букву Ё с учётом тематической специфики того конкретного сетевого издания, в интересах которого проводится это редактирование (рис.):

ет|ен|ер|ем|ев|ел|еш|ек|ес|еж|[еиосщь] е[-,.?!»);:]|ез|ег|ед|[елнруь]ей|ех|еб|еп

Пример подсветки буквосочетаний с помощью поискового запроса

Головко Н.В. Опыт решения практической задачи...    59

Как видно из рисунка, регулярное выражение позволит обратить внимание при вычитке на слова ученых, учетом, ее, трех, в которых букву Е необходимо заменить на Ё.

Таким образом, мы провели статистическое исследование возможных графических окружений, в которых встречается буква Ё, и в результате последующей аналитической работы решили практическую задачу по частичной технической поддержке процесса расстановки буквы Ё при редак- тировании текста с учётом конкретных условий. Полученные статистические данные и описанный опыт решения задачи могут быть полезны при разработке более сложных алгоритмов и механизмов «ёфика-ции», в том числе с использованием более точных трёхсимвольных буквосочетаний при отсутствии ограничений, налагаемых особенностями работы конкретного текстового процессора, средствами которого реализовывалась интересовавшая нас функциональность.

Список литературы Опыт решения практической задачи по автоматизированной расстановке буквы ё в русскоязычных текстах

  • Голев Н.Д. Коммуникативная орфография русского языка (на примере неразличения на письме букв е и ё). URL: http://lingvo.asu.ru/golev/articles/v99.html (дата обращения: 17.05.2020).
  • Гутентог М. Буква Ё - графема-омоним. Причины и следствия // Фигуры речи. Филология. URL: http://figur.ir2.ru/bukva_io.html (дата обращения: 17.05.2020).
  • Лобанов Б.М. Проблема разрешения "Ё"-омографов при синтезе речи по тексту // Международная конференция "Диалог". URL: http://www.dialog-21.ru/digests/dialog2009/materials/html/45.htm (дата обращения: 17.05.2020).
  • Нисман Л. Русский язык. Трудности, тайны, тонкости и не только… М.: Литео, 2018. 300 с.
  • Пахомов В.М. Буква Ё // Справочно-информационный интернет-портал "Русский язык". URL: http://gramota.ru/class/istiny/istiny_7_jo/ (дата обращения: 17.05.2020).
  • Правила русской орфографии и пунктуации. М.: Учпедгиз, 1956. 176 с.
  • Правила русской орфографии и пунктуации. Полный академический справочник / под ред. В.В. Лопатина. М.: Эксмо, 2006. 480 с.
  • Суперанская А.В. Вновь о букве Ё // Наука и жизнь. 2008. № 1. С. 32-34.
  • Чемерилов В.В., Фадеев А.С. Система автоматического разрешения омографии на основе семантической связи слов смежных предложений в текстовом отрывке // Доклады ТУСУР. 2018. Т. 21, № 2. С. 42-48.
  • Чумаков В.Т. Словарь употребления буквы Ё. URL: http://www.yomaker.ru/Slov2009.doc (дата обращения: 17.05.2020).
Еще
Статья научная