Проблема взаимоотношения звучащей и письменной речи на материале кодовых преобразований. Теория и методология вопроса

Бесплатный доступ

Статья посвящена сопоставлению звучащей речи и письменного (распознанного) текста в аспекте кодовой трансформации. Представлены традиционный и современный подходы к соотношению устной и письменной речи. Материалом исследования явились кодовые трансформации, полученные в результате преобразования звучащей речи в распознанный текст с помощью технологии распознавания речи от ВКонтакте. Были выявлены единицы кодовых трансформаций. Наиболее частотным типом искажения являются несовпадения в грамматической форме с эталоном в русском языке (искажения в формах рода, числа, падежа), связанные с редукцией в звучащей речи. Автор пришел к выводу, что количество и качество искажений в целом не мешают понимать основное содержание текста за счет отождествления модификаций с эталонами перцептивной базы и учета контекста. Несмотря на некоторые сложно идентифицируемые отрезки в распознанном тексте, его качество можно считать достаточно высоким.

Еще

Звучащая речь, распознанный текст, интерсемиотический перевод, кодовый перевод, тождество

Короткий адрес: https://sciup.org/147253199

IDR: 147253199   |   УДК: 81’373:81'22   |   DOI: 10.25205/1818-7919-2026-25-2-20-29

The Problem of Interrelationship between Spoken and Written Speech in Code Transformations. Theory and Methodology

Purpose. The article is devoted to the comparison of spoken speech and written (recognized) text in the aspect of code transformation. Traditional and modern approaches to the relationship between oral and written speech are presented. Results. The research material was code transformations obtained as a result of converting spoken speech into recognized text using speech recognition technology from VKontakte – ASR (Automatic Speech Recognition), working on the basis of neural networks. The subject of the study is the assessment of code transformations in the aspect of identity and difference between spoken and recognized speech. The speech given by the Minister of Foreign Affairs of the Russian Federation S.V. Lavrov at the UN Security Council meeting in New York 2023 was chosen as the speech. Performance time – 00:24:22. The number of words in the recognized text is 2847. Units of code transformations have been identified. A code transformation unit is a unit of transformations and modifications, which occupies the position of a component that distinguishes between spoken speech and recognized text. The most common distortion is units that do not coincide in grammatical form with the standard in the Russian language. Conclusion. The author came to the conclusion that the quantity and quality of distortions do not affect the recipient’s understanding of the text, due to the identification of modifications with the standards of the perceptual base and taking into account the context, which indicates the high quality of the recognized text.

Еще

Текст научной статьи Проблема взаимоотношения звучащей и письменной речи на материале кодовых преобразований. Теория и методология вопроса

,

,

В статье поднимается вопрос о степени и типе соотношения звучащей и распознанной речи (как варианта письменной). Обсуждение данного вопроса лежит в области лингвосемио-тики и рассматривается в двух аспектах: преобразование письменной речи в устную (автоматический синтез речи) и преобразование устной речи в письменную (автоматическое распознавание речи). В настоящее время активно развиваются технологии «Text-to-Speech» (синтез речи) и «Speech-to-Text» (преобразование речи в текст). Тенденции их внедрения обнаруживаются уже не только в бытовой, но и в профессиональной сфере жизни: голосовые помощники, чат-боты, твин-боты, воспроизведение сообщений электронных писем, голосовые сообщения в мессенджерах и их автоматический перевод в письменный текст и т. п. Предметом исследования становится теоретический аспект процесса перевода звучащей речи в письменный текст с помощью технологии распознавания речи.

Наблюдения показывают, что качество распознанной речи можно считать достаточно высоким, чтобы читать автоматические субтитры к видеоролику и понимать общий смысл того, что параллельно транслируется в видеоряде без включения звука. Стремление к сопровождению видеороликов автоматическими субтитрами может быть обусловлено необходимостью более удобного и быстрого восприятия информации адресатом. В другом смысле данная тенденция отражает конкуренцию аудиального и визуального, в которой зачастую выигрывает письменная форма речи. В этой связи возможности распознавания речи представляются особенно актуальными ввиду необходимости упрощения процессов механической обработки массивов информации.

М. С. Нетесина выделила ряд требующих теоретического осмысления практических задач в области звучащей речи: задачи обучения; собственно лингвистические задачи: описание современного состояния русской речи, звучащей с телеэкрана, по радио, проблемы речевого воздействия в средствах массовой информации, изучение нормы; задачи, связанные с потребностями медицины; задачи математическо-технического характера [Нетесина, 2007, с. 153–154]. Данный ряд можно продолжить задачами в области современной лингвистической парадигмы, связанными с автоматической обработкой звучащей речи, соотношением звучащей речи и распознанного текста.

Задача исследования, таким образом, – выявить единицы различия в кодовых трансформациях. Инструментом решения является технология, используемая для преобразования звучащей речи в текст, осуществляющая тем самым кодовые преобразования.

Кодовый перевод. Под звучащей речью мы понимаем естественную речь, имеющую звуковую форму; под письменной – распознанный текст, т. е. текст, полученный в результате кодовых преобразований из звучащей речи, смены одного канала восприятия информации на другой, с помощью специально предназначенных для этого технологий.

Вопрос кодового перехода поднимается в работе Н. И. Жинкина. Термин «код» трактуется автором как сама знаковая система обозначения (код – это сам язык), как способ реализации языка. Слово может быть дано в следующих реализациях: слышимое, видимое, произносимое, осязаемое, зрительно-двигательное и пр. Различные формы реализации слова представляют собой разные коды, при этом кодовая вариативность слова сохраняет его семантическое тождество. Переход из одного кода в другой – это «эквивалентное преобразование одной языковой формы в другую» [Жинкин, 1964, с. 29].

Н. Д. Голев исследует конкуренцию акустико-аудиального и мануально-визуального кодов, отмечая, что второй является вторичным относительного звукового [Голев, 2021, с. 1024]. Эксперимент, проведенный Н. И. Жинкиным, также показал, что «речедвигательный код является первичным, а буквенный – вторичным, производным от двигательного» [Жин-кин, 1964, с. 32]. Это соответствует генетическому подходу, при котором «письменный язык отходит на второй план, рассматривается как явление искусственное, вторичное, более позднее, чем естественный звуковой язык» [Пережогина, 2005, с. 29]. Письменная речь трактуется как вторичная система кодирования мысли.

Говоря о кодовом переводе, мы имеем дело с интерпретацией вербального знака. Р. О. Якобсон выделяет внутриязыковой перевод (переименование), межъязыковой перевод (собственно перевод), межсемиотический перевод (трансмутацию) [Якобсон, 1978]. Б. Чович, опираясь на идеи Р. О. Якобсона, под трансмутацией понимает «не только интерпретацию языковых знаков при помощи других неязыковых знаков <…>, но и, наоборот, интерпретацию неязыковых знаков языковыми, а также и шире, включая и область интрасемиотическо-го перевода, т. е. интерпретацию неязыковых знаков такими же неязыковыми, какими являются, к примеру, живопись и скульптура» [Чович, 2014, с. 50].

Можно ли считать перевод звучащей речи в текст с помощью специальных технологий кодовым переводом и, в частности, интерсемиотическим переводом? О. С. Ахманова под интерсемиотическим переводом понимает передачу «содержания не средствами того же или другого естественного (“словесного”) языка, а средствами какой-л. несловесной семиотической системы, такой как хореография, музыка и т. п., с одной стороны, и информационнологические языки – с другой» [Ахманова, 2004, с. 317].

А. А. Кожинова, рассматривая различные типы перевода в семиотическом аспекте, отмечает, что в отличие от других типов перевода, где «зрительно воспринимаемый текст заменяется также зрительно воспринимаемым текстом» [Кожинова, 2021, с. 19], в интерсемиотическом переводе происходит перекодировка аудиальной системы в визуальную. К этому типу перекодировки автор относит азбуку для слепых, где визуальная знаковая система перекодируется в тактильную, и транскрипцию, где акустическая система сменяется визуальной.

По запросу «интерсемиотический перевод» в Электронной научной библиотеке Elibrary располагаются работы, в которых исследуется перевод естественного языка на несловесную семиотическую систему: экранизация художественных произведений, песенное творчество, анимация, живопись, реклама. Понятие «интерсемиотический перевод» применимо к исследованиям, использующим интерпретацию вербальных знаков невербальными, например, рангом и частотой употребления слова в тексте.

Полагаем, понятие «интерсемиотический перевод» применимо к процессу распознавания звучащей речи технологиями ввиду того, что невербальные знаковые системы являются посредниками между исходной звучащей речью и полученным распознанным текстом.

Соотношение устной и письменной речи. Аспекты соотношения устной и письменной речи входили в область интересов исследователей до появления автоматизированных технологий обработки языка. Конкуренция устного и письменного вытекает в вопросы первичности / вторичности кода, приоритетности выбора канала, особенностей функционального использования. Историческому развитию данного вопроса посвящена статья Т. А. Пережоги-ной [2005]. Бодуэн де Куртенэ отмечал, что устная форма занимает первичный план по сравнению с письменной, при этом имеется в виду, что устная и письменная речь – два разных вида речевой деятельности. Последующие исследования в рамках функционального подхода рассматривают устную и письменную речь как два вида, различающихся функционально (А. Макинтош, Дж. Маклохлин). В таком случае при соотношении устной и письменной речи не ставится вопрос о первичности и вторичности каждого. В современной лингвистике устная и письменная речь рассматриваются как две формы существования языка [Пережогина, 2005, с. 31].

Устная и письменная речь на телеэкране (бегущая строка, титры и врезы) взаимодопол-няют друг друга – такое соотношение устной и письменной форм речи обеспечивает адекватность восприятия информации [Сурикова, 2017]. Взаимодополнение осуществляется в двух аспектах: 1) письменная речь комментирует устную речь, невербальную сторону; 2) письменная речь представляет собой текст в тексте, повышает информативность, так как по разным языковым каналам транслируются тематически разные сообщения.

Конкуренция звукового и письменного кодов в виртуальной коммуникации отражена иначе. Об «орализации языка» пишет С. А. Лысенко [2010, с. 55], делая вывод о том, что именно устная речь фактически доминирует в Интернете. Т. В. Алтухова вслед за Т. Ю. Виноградовой и А. В. Кузнецовым языковую разновидность, используемую в Интернете, считает корректным называть «письменная разговорная речь», поскольку такая разновидность речи фиксирует стилевые особенности виртуальной коммуникации и при этом отражает форму ее фиксации» [Алтухова, 2012].

Конкуренция акустико-аудиального и мануально-визуального кодов возникает и при чтении лекции, сопровождаемой презентацией. Поднимается вопрос о первичности кода: текст презентации подкрепляет звучащую речь лектора или речь лектора является озвучиванием текста презентации [Голев, 2021, с. 1026]? По мнению Т. И. Суриковой, наличие визуальной поддержки звучащей речи усиливает ее восприятие, что обусловлено психофизиологической природой восприятия речи: использование двух каналов при передаче информации эффективно влияет на восприятие речи и точность / адекватность интерпретации сообщения [Сурикова, 2017].

Интернет-коммуникация предлагает разные возможности восприятия информации – параллельно представлена возможность аудиального и визуального восприятия. Звучащая речь или видео (воздействующее на аудиальный и визуальный каналы восприятия) поддерживаются текстом. Например, на сайте МИД РФ выступления, брифинги сопровождаются опубликованными текстами, которые можно прочитать, не смотря и не слушая выступление; подкасты на некоторых площадках также сопровождаются текстом (в основном это площадки для изучения языка); короткие видео в социальных сетях, видеохостингах (например, YouTube Shorts, VK Клипы) с субтитрами.

Н. М. Азарова, А. Л. Полян трактуют оппозицию устного и письменного как тернарную, включая в нее компонент «озвучиваемое»: устное – спонтанная звучащая речь, не записанная; озвучиваемое – озвучивание записанного текста; письменное – собственно письменная речь. Описанную тернарную оппозицию, на наш взгляд, можно дополнить понятием «распознанная речь» как текст, полученный посредством распознавания речи с использованием специально предназначенных для этого технологий, т. е. перекодирования устной (звучащей) речи в письменный текст.

Конкуренция устной и письменной речи модифицирована в конкуренцию устной речи и распознанного текста. Кодовая трансформация между ними является новым предметом исследовательских тенденций.

Оценка распознавания речи интересна как лингвистам, так и специалистам в области компьютерных и информационных наук. В силу специфики проблемы распознавания речи преобладают исследования, объектом которых являются соответствующие технологии: мобильные технологии распознавания речи, технологии в социальных сетях, методы подавления шума, разработка приложений, систем, моделей распознавания речи. Например, в статье [Алексеев и др., 2018] осуществляется тестирование систем распознавания речи. Отмечается невысокая точность распознавания в особенности спонтанной речи, сопровождаемой аграм-матизмами и речевым «мусором». Нейросетевые технологии показали лучшие результаты в тестировании, проводимом авторами.

В лингвистике вопрос распознавания речи рассматривается в том числе в области современной экспериментальной фонетики (см., например, [Грачев, 2016]).

Анализ фонетического аспекта распознавания речи в социальной сети «ВКонтакте» на примере анализа расшифровки разных стилей речи представлен в работе [Казачанская, Коно-топова, 2023]. Авторы оценивают качество распознавания речи и сопоставляют особенности полученного текста в научном, официально-деловом и разговорном стилях, выделяют основные причины трудностей с декодификацией.

Лингвистические аспекты распознавания речи рассмотрены в статье К. А. Писаревой. Автор выделяет ряд сложностей распознавания речи: акустические сложности; фонетические сложности (особенности артикуляции говорящего); омонимия; лексическая вариативность [Писарева, 2023, с. 223]. Потеря звуков в речи не всегда ведет за собой семантическую потерю: восстановление утраченных элементов слушающим осуществляется благодаря устойчивости консонантного скелета словоформы и контексту [Риехакайнен, 2008].

При распознавании речи актуализируется фактор влияния контекста (структурный, неструктурный, интонационный, лексический, синтаксический, семантический, ситуативный типы контекста) [Кокурина, Жуков, 2022]. Ограничения могут быть на уровне фонем, морфем, словосочетаний, высказываний, текста: «Ты жеребенок – ты же ребенок», «Несуразные вещи – несу разные вещи» и др. [Там же, с. 4]. Неструктурный тип контекста указывает на ассоциативные связи между словами: бесчеловечно и безлюдно – не синонимы.

Перевод звучащей речи в письменную – это «декодирование языковой структуры речевого сообщения слитной речи с использованием разных источников лингвистических знаний» [Грачев, 2016, с. 140]. Кодовый перевод звучащей речи в распознанную путем ее обработки различным инструментарием – это перекодировка входящего акустического сигнала в последовательность символов (интерсемиотический перевод), а затем перевод в вербальные письменные символы, доступные для визуального восприятия.

Поставленная задача предполагает выявление единиц кодовых трансформаций. Материалом явилось выступление Министра иностранных дел РФ С. В. Лаврова на заседании СБ ООН в Нью-Йорке 20 сентября 2023 г. 1 Перевод звучащей речи в текст выполнен с помощью технологии распознавания речи от ВКонтакте – ASR, работающей на базе нейросетей 2. Исследование проводилось в несколько этапов.

  • 1.    Выявление единиц искажений в распознанном тексте осуществляется путем сопоставления распознанного текста со звучащей речью на основе перцептивно-слухового восприятия слушающего, иными словами, соотносятся результаты восприятия звучащей речи человеком и нейросетью. Единица кодовой трансформации – единица преобразований, искажений, которая на шкале «тождество – различие» занимает позицию компонента, различающего звучащую речь и распознанный текст.

  • 2.    Автоматическое установление тождества – различия между распознанным текстом и текстом, опубликованным на сайте МИД РФ. Результатом анализа является процент сходства текстов, т. е. степень их тождественности: чем выше процент, тем тексты наиболее схожи друг с другом. В исследовании процент схожести означает степень качества распознанного текста. Тождество понимаем как соответствие языкового знака в распознанном тексте облику слова в письменной речи.

  • 3.    Сопоставление звучащей речи и распознанного текста 3.

Больший объем распознанных единиц не совпадает в грамматической форме с языковой нормой (выявлены искажения в формах рода, числа, падежа). Например: выбора ( выборов ), обсуждал ( обсуждала ), ограничено ( ограничены ), принято ( принятой ), с заявлением ( с заявлениями ).

Редукция слогов в середине слова : совеное ( суверенное ).

Замена

  •    слова на похожее по звучанию, но отсутствующее в русском языке : чет-пол (те, кто ), полетив ( коллектив ), призи ( кризис ),

  •    на слово, имеющее в русском языке иное значение : пошел (поощряла ), надо (НАТО ), были ( более ), Олега ( коллег ).

  •    слова на несколько слов : самое лучшение ( самоулучшению ), и раки ( Ираке ), в виду ( ве^ут ),

  •    двух слов на одно : вобход ( в обход ), вреды ( в ряды ).

Вставка : одна тысяча девятьсот семьдесят-го года (слово «одна» не произносится).

Пропуск слов : сведения возможности ( сведения о возможности ), мы сейчас ( мы и сейчас ).

Отметим случай устойчивой замены аббревиатуры «ООН» в тексте на « , он » (варианты: уста, он ; устал, он ; устава, он ; уставы, он ; уставом, он ; члены, он ; решение, он ; стабильность, оно ).

Особую трудность вызывают сложно идентифицируемые единицы, затрудняющие понимание текста, например: запад не только не сдерживает своих протеже ки и вино и Санту-за , поощряют их российскую политику ( Запад не только не сдерживает своих протеже в Киеве, но и с энтузиазмом поощряет их расистскую политику ).

Регистр и знаки препинания на данном этапе исследования не анализируются, однако отметим, что ASR от ВКонтакте расставляет знаки препинания в противоречии с грамматикой русского языка.

Наличие в распознанном тексте единиц кодовой трансформации объясняется в том числе редукцией конечных гласных в устной речи, которые как человеком, так и нейросетью не всегда могут быть идентифицированы. Однако для человека это не составляет сложности: «...в восстановлении “утрат” носитель языка в значительной степени опирается на более устойчивый к редукциям консонантный скелет словоформы и при этом важную роль играет контекст [Риехакайнен, 2008]» (цит. по: [Венцов, 2009, с. 14]). Восприятие звучащей речи человеком сопровождается отождествлением с эталонами перцептивной базы как единства «хранящихся в памяти человека эталонов фонетических единиц и правил сравнения с ними» [Джапаридзе, 1985, с. 13]. Например, на слух не различимы окончания в словах «поддерживающий» и «поддерживающей», однако это не препятствует пониманию текста.

Согласно результатам сравнения текстов (распознанной речи и опубликованного текста на официальном сайте) на схожесть с помощью специального сервиса 4, тексты схожи на 65,66 %. Это доля тождества текстов друг относительно друга. Доля различий между текстами, которая включает в себя единицы кодовой трансформации, составляет 34,34 %.

Результаты анализа единиц кодовой трансформации подтвердили, что количество и качество искажений в целом не мешают понимать основное содержание текста за счет отождествления модификаций с эталонами перцептивной базы и учета контекста, однако требуется дополнительная постобработка для соответствия исходному тексту, опубликованному на сайте. Большее количество искажений касается различий в грамматической форме.

Несмотря на некоторые сложно идентифицируемые отрезки в распознанном тексте, его качество можно считать достаточно высоким, в связи с чем применение технологий распознавания звучащей речи на базе нейросетей может быть использовано с целью ускорения об- работки звучащей речи и публикации распознанного текста, сопровождающего речь. Относительно высокое качество распознанного текста подтвердило сопоставление двух текстов на предмет тождества / различия с помощью программы сравнения текстов на схожесть. Объем модификаций в распознанном тексте составил 34,34 %. Это элементы, затрудняющие (в закате океанском ребер (азиатско-тихоокеанском регионе)) или частично затрудняющие (эти поборники территориальной целостности Украины теперь делают вид, что не помнят, не помнят смысла менских соглашений, заключавшееся я напомню воссоединение донбасса с Украиной) понимание текста.

Подходы к соотношению устной и письменной речи, а в современной коммуникации – к соотношению устной речи и распознанного текста видятся как, с одной стороны, конкурирующие, с другой – дополняющие друг друга: осуществляется выбор между тем, чтобы прослушать, посмотреть видео, прочитать текст, его сопровождающий, или использовать все доступные каналы.

Перспектива исследования – рассмотрение вопроса о соотношении звучащей и распознанной речи в рамках вариантологической проблемы, что продолжает тенденцию расширения границ вариантологии. В методологическом аспекте перспектива исследования заключается в разработке методологии выявления кодовых трансформаций между звучащей речью и распознанным текстом, разрешение вопроса их возможного взаимного автоматического преобразования. Технология распознавания речи явилась посредником между устной речью и распознанным текстом, осуществляющим кодовую трансформацию.