Проблема взаимоотношения звучащей и письменной речи на материале кодовых преобразований. Теория и методология вопроса
Автор: Напреенко Г.В.
Журнал: Вестник Новосибирского государственного университета. Серия: История, филология @historyphilology
Рубрика: Языкознание
Статья в выпуске: 2 т.25, 2026 года.
Бесплатный доступ
Статья посвящена сопоставлению звучащей речи и письменного (распознанного) текста в аспекте кодовой трансформации. Представлены традиционный и современный подходы к соотношению устной и письменной речи. Материалом исследования явились кодовые трансформации, полученные в результате преобразования звучащей речи в распознанный текст с помощью технологии распознавания речи от ВКонтакте. Были выявлены единицы кодовых трансформаций. Наиболее частотным типом искажения являются несовпадения в грамматической форме с эталоном в русском языке (искажения в формах рода, числа, падежа), связанные с редукцией в звучащей речи. Автор пришел к выводу, что количество и качество искажений в целом не мешают понимать основное содержание текста за счет отождествления модификаций с эталонами перцептивной базы и учета контекста. Несмотря на некоторые сложно идентифицируемые отрезки в распознанном тексте, его качество можно считать достаточно высоким.
Звучащая речь, распознанный текст, интерсемиотический перевод, кодовый перевод, тождество
Короткий адрес: https://sciup.org/147253199
IDR: 147253199 | УДК: 81’373:81'22 | DOI: 10.25205/1818-7919-2026-25-2-20-29
Текст научной статьи Проблема взаимоотношения звучащей и письменной речи на материале кодовых преобразований. Теория и методология вопроса
,
,
В статье поднимается вопрос о степени и типе соотношения звучащей и распознанной речи (как варианта письменной). Обсуждение данного вопроса лежит в области лингвосемио-тики и рассматривается в двух аспектах: преобразование письменной речи в устную (автоматический синтез речи) и преобразование устной речи в письменную (автоматическое распознавание речи). В настоящее время активно развиваются технологии «Text-to-Speech» (синтез речи) и «Speech-to-Text» (преобразование речи в текст). Тенденции их внедрения обнаруживаются уже не только в бытовой, но и в профессиональной сфере жизни: голосовые помощники, чат-боты, твин-боты, воспроизведение сообщений электронных писем, голосовые сообщения в мессенджерах и их автоматический перевод в письменный текст и т. п. Предметом исследования становится теоретический аспект процесса перевода звучащей речи в письменный текст с помощью технологии распознавания речи.
Наблюдения показывают, что качество распознанной речи можно считать достаточно высоким, чтобы читать автоматические субтитры к видеоролику и понимать общий смысл того, что параллельно транслируется в видеоряде без включения звука. Стремление к сопровождению видеороликов автоматическими субтитрами может быть обусловлено необходимостью более удобного и быстрого восприятия информации адресатом. В другом смысле данная тенденция отражает конкуренцию аудиального и визуального, в которой зачастую выигрывает письменная форма речи. В этой связи возможности распознавания речи представляются особенно актуальными ввиду необходимости упрощения процессов механической обработки массивов информации.
М. С. Нетесина выделила ряд требующих теоретического осмысления практических задач в области звучащей речи: задачи обучения; собственно лингвистические задачи: описание современного состояния русской речи, звучащей с телеэкрана, по радио, проблемы речевого воздействия в средствах массовой информации, изучение нормы; задачи, связанные с потребностями медицины; задачи математическо-технического характера [Нетесина, 2007, с. 153–154]. Данный ряд можно продолжить задачами в области современной лингвистической парадигмы, связанными с автоматической обработкой звучащей речи, соотношением звучащей речи и распознанного текста.
Задача исследования, таким образом, – выявить единицы различия в кодовых трансформациях. Инструментом решения является технология, используемая для преобразования звучащей речи в текст, осуществляющая тем самым кодовые преобразования.
Кодовый перевод. Под звучащей речью мы понимаем естественную речь, имеющую звуковую форму; под письменной – распознанный текст, т. е. текст, полученный в результате кодовых преобразований из звучащей речи, смены одного канала восприятия информации на другой, с помощью специально предназначенных для этого технологий.
Вопрос кодового перехода поднимается в работе Н. И. Жинкина. Термин «код» трактуется автором как сама знаковая система обозначения (код – это сам язык), как способ реализации языка. Слово может быть дано в следующих реализациях: слышимое, видимое, произносимое, осязаемое, зрительно-двигательное и пр. Различные формы реализации слова представляют собой разные коды, при этом кодовая вариативность слова сохраняет его семантическое тождество. Переход из одного кода в другой – это «эквивалентное преобразование одной языковой формы в другую» [Жинкин, 1964, с. 29].
Н. Д. Голев исследует конкуренцию акустико-аудиального и мануально-визуального кодов, отмечая, что второй является вторичным относительного звукового [Голев, 2021, с. 1024]. Эксперимент, проведенный Н. И. Жинкиным, также показал, что «речедвигательный код является первичным, а буквенный – вторичным, производным от двигательного» [Жин-кин, 1964, с. 32]. Это соответствует генетическому подходу, при котором «письменный язык отходит на второй план, рассматривается как явление искусственное, вторичное, более позднее, чем естественный звуковой язык» [Пережогина, 2005, с. 29]. Письменная речь трактуется как вторичная система кодирования мысли.
Говоря о кодовом переводе, мы имеем дело с интерпретацией вербального знака. Р. О. Якобсон выделяет внутриязыковой перевод (переименование), межъязыковой перевод (собственно перевод), межсемиотический перевод (трансмутацию) [Якобсон, 1978]. Б. Чович, опираясь на идеи Р. О. Якобсона, под трансмутацией понимает «не только интерпретацию языковых знаков при помощи других неязыковых знаков <…>, но и, наоборот, интерпретацию неязыковых знаков языковыми, а также и шире, включая и область интрасемиотическо-го перевода, т. е. интерпретацию неязыковых знаков такими же неязыковыми, какими являются, к примеру, живопись и скульптура» [Чович, 2014, с. 50].
Можно ли считать перевод звучащей речи в текст с помощью специальных технологий кодовым переводом и, в частности, интерсемиотическим переводом? О. С. Ахманова под интерсемиотическим переводом понимает передачу «содержания не средствами того же или другого естественного (“словесного”) языка, а средствами какой-л. несловесной семиотической системы, такой как хореография, музыка и т. п., с одной стороны, и информационнологические языки – с другой» [Ахманова, 2004, с. 317].
А. А. Кожинова, рассматривая различные типы перевода в семиотическом аспекте, отмечает, что в отличие от других типов перевода, где «зрительно воспринимаемый текст заменяется также зрительно воспринимаемым текстом» [Кожинова, 2021, с. 19], в интерсемиотическом переводе происходит перекодировка аудиальной системы в визуальную. К этому типу перекодировки автор относит азбуку для слепых, где визуальная знаковая система перекодируется в тактильную, и транскрипцию, где акустическая система сменяется визуальной.
По запросу «интерсемиотический перевод» в Электронной научной библиотеке Elibrary располагаются работы, в которых исследуется перевод естественного языка на несловесную семиотическую систему: экранизация художественных произведений, песенное творчество, анимация, живопись, реклама. Понятие «интерсемиотический перевод» применимо к исследованиям, использующим интерпретацию вербальных знаков невербальными, например, рангом и частотой употребления слова в тексте.
Полагаем, понятие «интерсемиотический перевод» применимо к процессу распознавания звучащей речи технологиями ввиду того, что невербальные знаковые системы являются посредниками между исходной звучащей речью и полученным распознанным текстом.
Соотношение устной и письменной речи. Аспекты соотношения устной и письменной речи входили в область интересов исследователей до появления автоматизированных технологий обработки языка. Конкуренция устного и письменного вытекает в вопросы первичности / вторичности кода, приоритетности выбора канала, особенностей функционального использования. Историческому развитию данного вопроса посвящена статья Т. А. Пережоги-ной [2005]. Бодуэн де Куртенэ отмечал, что устная форма занимает первичный план по сравнению с письменной, при этом имеется в виду, что устная и письменная речь – два разных вида речевой деятельности. Последующие исследования в рамках функционального подхода рассматривают устную и письменную речь как два вида, различающихся функционально (А. Макинтош, Дж. Маклохлин). В таком случае при соотношении устной и письменной речи не ставится вопрос о первичности и вторичности каждого. В современной лингвистике устная и письменная речь рассматриваются как две формы существования языка [Пережогина, 2005, с. 31].
Устная и письменная речь на телеэкране (бегущая строка, титры и врезы) взаимодопол-няют друг друга – такое соотношение устной и письменной форм речи обеспечивает адекватность восприятия информации [Сурикова, 2017]. Взаимодополнение осуществляется в двух аспектах: 1) письменная речь комментирует устную речь, невербальную сторону; 2) письменная речь представляет собой текст в тексте, повышает информативность, так как по разным языковым каналам транслируются тематически разные сообщения.
Конкуренция звукового и письменного кодов в виртуальной коммуникации отражена иначе. Об «орализации языка» пишет С. А. Лысенко [2010, с. 55], делая вывод о том, что именно устная речь фактически доминирует в Интернете. Т. В. Алтухова вслед за Т. Ю. Виноградовой и А. В. Кузнецовым языковую разновидность, используемую в Интернете, считает корректным называть «письменная разговорная речь», поскольку такая разновидность речи фиксирует стилевые особенности виртуальной коммуникации и при этом отражает форму ее фиксации» [Алтухова, 2012].
Конкуренция акустико-аудиального и мануально-визуального кодов возникает и при чтении лекции, сопровождаемой презентацией. Поднимается вопрос о первичности кода: текст презентации подкрепляет звучащую речь лектора или речь лектора является озвучиванием текста презентации [Голев, 2021, с. 1026]? По мнению Т. И. Суриковой, наличие визуальной поддержки звучащей речи усиливает ее восприятие, что обусловлено психофизиологической природой восприятия речи: использование двух каналов при передаче информации эффективно влияет на восприятие речи и точность / адекватность интерпретации сообщения [Сурикова, 2017].
Интернет-коммуникация предлагает разные возможности восприятия информации – параллельно представлена возможность аудиального и визуального восприятия. Звучащая речь или видео (воздействующее на аудиальный и визуальный каналы восприятия) поддерживаются текстом. Например, на сайте МИД РФ выступления, брифинги сопровождаются опубликованными текстами, которые можно прочитать, не смотря и не слушая выступление; подкасты на некоторых площадках также сопровождаются текстом (в основном это площадки для изучения языка); короткие видео в социальных сетях, видеохостингах (например, YouTube Shorts, VK Клипы) с субтитрами.
Н. М. Азарова, А. Л. Полян трактуют оппозицию устного и письменного как тернарную, включая в нее компонент «озвучиваемое»: устное – спонтанная звучащая речь, не записанная; озвучиваемое – озвучивание записанного текста; письменное – собственно письменная речь. Описанную тернарную оппозицию, на наш взгляд, можно дополнить понятием «распознанная речь» как текст, полученный посредством распознавания речи с использованием специально предназначенных для этого технологий, т. е. перекодирования устной (звучащей) речи в письменный текст.
Конкуренция устной и письменной речи модифицирована в конкуренцию устной речи и распознанного текста. Кодовая трансформация между ними является новым предметом исследовательских тенденций.
Оценка распознавания речи интересна как лингвистам, так и специалистам в области компьютерных и информационных наук. В силу специфики проблемы распознавания речи преобладают исследования, объектом которых являются соответствующие технологии: мобильные технологии распознавания речи, технологии в социальных сетях, методы подавления шума, разработка приложений, систем, моделей распознавания речи. Например, в статье [Алексеев и др., 2018] осуществляется тестирование систем распознавания речи. Отмечается невысокая точность распознавания в особенности спонтанной речи, сопровождаемой аграм-матизмами и речевым «мусором». Нейросетевые технологии показали лучшие результаты в тестировании, проводимом авторами.
В лингвистике вопрос распознавания речи рассматривается в том числе в области современной экспериментальной фонетики (см., например, [Грачев, 2016]).
Анализ фонетического аспекта распознавания речи в социальной сети «ВКонтакте» на примере анализа расшифровки разных стилей речи представлен в работе [Казачанская, Коно-топова, 2023]. Авторы оценивают качество распознавания речи и сопоставляют особенности полученного текста в научном, официально-деловом и разговорном стилях, выделяют основные причины трудностей с декодификацией.
Лингвистические аспекты распознавания речи рассмотрены в статье К. А. Писаревой. Автор выделяет ряд сложностей распознавания речи: акустические сложности; фонетические сложности (особенности артикуляции говорящего); омонимия; лексическая вариативность [Писарева, 2023, с. 223]. Потеря звуков в речи не всегда ведет за собой семантическую потерю: восстановление утраченных элементов слушающим осуществляется благодаря устойчивости консонантного скелета словоформы и контексту [Риехакайнен, 2008].
При распознавании речи актуализируется фактор влияния контекста (структурный, неструктурный, интонационный, лексический, синтаксический, семантический, ситуативный типы контекста) [Кокурина, Жуков, 2022]. Ограничения могут быть на уровне фонем, морфем, словосочетаний, высказываний, текста: «Ты жеребенок – ты же ребенок», «Несуразные вещи – несу разные вещи» и др. [Там же, с. 4]. Неструктурный тип контекста указывает на ассоциативные связи между словами: бесчеловечно и безлюдно – не синонимы.
Перевод звучащей речи в письменную – это «декодирование языковой структуры речевого сообщения слитной речи с использованием разных источников лингвистических знаний» [Грачев, 2016, с. 140]. Кодовый перевод звучащей речи в распознанную путем ее обработки различным инструментарием – это перекодировка входящего акустического сигнала в последовательность символов (интерсемиотический перевод), а затем перевод в вербальные письменные символы, доступные для визуального восприятия.
Поставленная задача предполагает выявление единиц кодовых трансформаций. Материалом явилось выступление Министра иностранных дел РФ С. В. Лаврова на заседании СБ ООН в Нью-Йорке 20 сентября 2023 г. 1 Перевод звучащей речи в текст выполнен с помощью технологии распознавания речи от ВКонтакте – ASR, работающей на базе нейросетей 2. Исследование проводилось в несколько этапов.
-
1. Выявление единиц искажений в распознанном тексте осуществляется путем сопоставления распознанного текста со звучащей речью на основе перцептивно-слухового восприятия слушающего, иными словами, соотносятся результаты восприятия звучащей речи человеком и нейросетью. Единица кодовой трансформации – единица преобразований, искажений, которая на шкале «тождество – различие» занимает позицию компонента, различающего звучащую речь и распознанный текст.
-
2. Автоматическое установление тождества – различия между распознанным текстом и текстом, опубликованным на сайте МИД РФ. Результатом анализа является процент сходства текстов, т. е. степень их тождественности: чем выше процент, тем тексты наиболее схожи друг с другом. В исследовании процент схожести означает степень качества распознанного текста. Тождество понимаем как соответствие языкового знака в распознанном тексте облику слова в письменной речи.
-
3. Сопоставление звучащей речи и распознанного текста 3.
Больший объем распознанных единиц не совпадает в грамматической форме с языковой нормой (выявлены искажения в формах рода, числа, падежа). Например: выбора ( выборов ), обсуждал ( обсуждала ), ограничено ( ограничены ), принято ( принятой ), с заявлением ( с заявлениями ).
Редукция слогов в середине слова : совеное ( суверенное ).
Замена
-
• слова на похожее по звучанию, но отсутствующее в русском языке : чет-пол (те, кто ), полетив ( коллектив ), призи ( кризис ),
-
• на слово, имеющее в русском языке иное значение : пошел (поощряла ), надо (НАТО ), были ( более ), Олега ( коллег ).
-
• слова на несколько слов : самое лучшение ( самоулучшению ), и раки ( Ираке ), в виду ( ве^ут ),
-
• двух слов на одно : вобход ( в обход ), вреды ( в ряды ).
Вставка : одна тысяча девятьсот семьдесят-го года (слово «одна» не произносится).
Пропуск слов : сведения возможности ( сведения о возможности ), мы сейчас ( мы и сейчас ).
Отметим случай устойчивой замены аббревиатуры «ООН» в тексте на « , он » (варианты: уста, он ; устал, он ; устава, он ; уставы, он ; уставом, он ; члены, он ; решение, он ; стабильность, оно ).
Особую трудность вызывают сложно идентифицируемые единицы, затрудняющие понимание текста, например: запад не только не сдерживает своих протеже ки и вино и Санту-за , поощряют их российскую политику ( Запад не только не сдерживает своих протеже в Киеве, но и с энтузиазмом поощряет их расистскую политику ).
Регистр и знаки препинания на данном этапе исследования не анализируются, однако отметим, что ASR от ВКонтакте расставляет знаки препинания в противоречии с грамматикой русского языка.
Наличие в распознанном тексте единиц кодовой трансформации объясняется в том числе редукцией конечных гласных в устной речи, которые как человеком, так и нейросетью не всегда могут быть идентифицированы. Однако для человека это не составляет сложности: «...в восстановлении “утрат” носитель языка в значительной степени опирается на более устойчивый к редукциям консонантный скелет словоформы и при этом важную роль играет контекст [Риехакайнен, 2008]» (цит. по: [Венцов, 2009, с. 14]). Восприятие звучащей речи человеком сопровождается отождествлением с эталонами перцептивной базы как единства «хранящихся в памяти человека эталонов фонетических единиц и правил сравнения с ними» [Джапаридзе, 1985, с. 13]. Например, на слух не различимы окончания в словах «поддерживающий» и «поддерживающей», однако это не препятствует пониманию текста.
Согласно результатам сравнения текстов (распознанной речи и опубликованного текста на официальном сайте) на схожесть с помощью специального сервиса 4, тексты схожи на 65,66 %. Это доля тождества текстов друг относительно друга. Доля различий между текстами, которая включает в себя единицы кодовой трансформации, составляет 34,34 %.
Результаты анализа единиц кодовой трансформации подтвердили, что количество и качество искажений в целом не мешают понимать основное содержание текста за счет отождествления модификаций с эталонами перцептивной базы и учета контекста, однако требуется дополнительная постобработка для соответствия исходному тексту, опубликованному на сайте. Большее количество искажений касается различий в грамматической форме.
Несмотря на некоторые сложно идентифицируемые отрезки в распознанном тексте, его качество можно считать достаточно высоким, в связи с чем применение технологий распознавания звучащей речи на базе нейросетей может быть использовано с целью ускорения об- работки звучащей речи и публикации распознанного текста, сопровождающего речь. Относительно высокое качество распознанного текста подтвердило сопоставление двух текстов на предмет тождества / различия с помощью программы сравнения текстов на схожесть. Объем модификаций в распознанном тексте составил 34,34 %. Это элементы, затрудняющие (в закате океанском ребер (азиатско-тихоокеанском регионе)) или частично затрудняющие (эти поборники территориальной целостности Украины теперь делают вид, что не помнят, не помнят смысла менских соглашений, заключавшееся я напомню воссоединение донбасса с Украиной) понимание текста.
Подходы к соотношению устной и письменной речи, а в современной коммуникации – к соотношению устной речи и распознанного текста видятся как, с одной стороны, конкурирующие, с другой – дополняющие друг друга: осуществляется выбор между тем, чтобы прослушать, посмотреть видео, прочитать текст, его сопровождающий, или использовать все доступные каналы.
Перспектива исследования – рассмотрение вопроса о соотношении звучащей и распознанной речи в рамках вариантологической проблемы, что продолжает тенденцию расширения границ вариантологии. В методологическом аспекте перспектива исследования заключается в разработке методологии выявления кодовых трансформаций между звучащей речью и распознанным текстом, разрешение вопроса их возможного взаимного автоматического преобразования. Технология распознавания речи явилась посредником между устной речью и распознанным текстом, осуществляющим кодовую трансформацию.