Психологические факторы, влияющие на правильность распознавания естественной и синтезированной речи

Автор: Наседкина З.А.

Журнал: Академический журнал Западной Сибири @ajws

Рубрика: Педагогика

Статья в выпуске: 4 (59) т.11, 2015 года.

Бесплатный доступ

Короткий адрес: https://sciup.org/140219887

IDR: 140219887

Текст статьи Психологические факторы, влияющие на правильность распознавания естественной и синтезированной речи

При определении факторов, влияющих на правильность распознавания речи слушателем воспользуемся общими концептуальными положениями когнитивной психологии, а также анализом некоторых результатов наших экспериментальных исследований и исследований американских авторов в тех аспектах, которые, на наш взгляд, важны как в целом для решения проблемы восприятия синтезированной речи, так и для конкретных человеко-машинных систем, использующих синтезированную речь.

На правильность распознавания русскоязычной синтезированной речи слушателем влияет следующий ряд факторов: 1) природа слухового восприятия; 2) соотношение автоматических и контролируемых процессов при восприятии речевой информации; 3) конкретные требования и условия, связанные со спецификой решаемой задачи; 4) ограничения, присущие системе обработки информации, которой наделен человек; 5) опыт и тренировка слушателя; 6) лингвистическая структура сообщения; 7) структура и качество речевого сигнала; 8) когнитивный стиль и мотивация, определяющие индивидуальные особенности переработки информации.

Факторы 3, 4, 5, 6, 7 введены в рассмотрение D.B. Pisoni [1, 2] для англоязычной синтезированной речи. Факторы 1, 2, 8 введены в рассмотрение нами. Разберем каждый из этих факторов подробнее.

Природа слухового восприятия. Первым ограничивающим фактором выступает природа слухового восприятия , которая особенно отчётливо проявляется при слушании текстов, которые, в основном, предназначаются для чтения, а не для слушания. При испытаниях на понимание читатель имеет возможность перечитать материал, чтобы ответить на некоторые вопросы.

Читатель всегда имеет доступ к любому месту текста, тогда как слушатель не может снова прослушать уже прозвучавшие части текста.

Соотношение автоматических и контролируемых процессов при восприятии речевой информации . Второй фактор, влияющий на распознание синтезированной речи, связан с соотношением автоматических и контролируемых процессов при восприятии речевой информации. Следуя разработанной в работе [3] модели обработки информации человеком, можно предположить, что внимание опосредует восприятие речи и это опосредование очень похоже на автоматический процесс по Шифрину и Шнейдеру. Слушатель осознаёт события на лексическом уровне, т.е. в виде значений произносимых слов, но может направлять внимание и на фонематический уровень, т.е. на уровень звучания речи. Нам представляется, что при восприятии и понимании синтезированной речи слушатель в большей степени, чем при восприятии и понимании естественной речи вынужден распределять своё внимание с лексического на фонематический уровень.

Сложность задачи. Третьим ограничивающим фактором является сложность задач, которые выполняет слушатель одновременно с восприятием речи. В ряде задач требования к реакции человека довольно просты, например, решить, какое именно слово из двух заранее известных было произнесено. Другие задачи могут быть более сложными, например, распознать некоторое неизвестное высказывание из фактически неограниченного набора, выполняя другую работу, которая тоже требует внимания. В литературе по когнитивной и инженерной психологии показано существенное влияние на человека, выполняющего некоторый круг задач по восприятию и распознаванию, таких факторов, как предлагаемый для восприятия набор, характер инструкций, субъективный ожидаемый результат, требования к вниманию. На правильность распознавания оказывает также значительное влияние контекст и степень неопределенности задачи. Поэтому, прежде чем делать какие-то определенные выводы относительно поведения человека или того, насколько правильно он распознает предъявляемый ему материал, необходимо понять все условия и требования конкретной задачи.

Ограничения, присущие человеку. Четвёртый фактор, влияющий на распознание синтезированной речи, связан со структурными ограничениями, присущими системе обработки информации, которой наделен человек, то есть с ограниченной способностью человека воспринимать, кодировать, запоминать и извлекать из памяти информацию. Поскольку нервная система не может использовать сразу все параметры сенсорного раздражения (и поэтому вынуждена интегрировать звуковую энергию по времени), способность человека декодировать (расшифровывать) и запоминать исходные сенсорные данные, как оказалось, весьма ограничена. Для преодоления этих ограничений слушатель должен быстро преобразовать сенсорные входные сигналы в более абстрактную форму – в нейронные коды для надежного хранения в памяти и последующей обработки. В результате проведенных исследований по когнитивным и перцептивным процессам выяснилось, что главное ограничение при обработке информации налагает кратковременная память человека. Количество информации, которое может обрабатываться в кратковременной памяти и передаваться на следующий уровень, в значительной мере зависит от степени внимания слушателя, его прошлого опыта, а также от «качества» входной сенсорной информации.

Характеристика сигнала. Пятый фактор связан с акустико-фонетической и просодической структурой, то есть со сходством звучания синтезированного речевого сигнала с естественной речью. Речевые сигналы можно рассматривать как физическую реализацию сложной иерархически организованной системы лингвистических правил, с помощью которых свойства речевого сигнала ограничиваются акустикой голосового тракта. Акустико-фонетическая структура естественной речи отражает эти физические ограничения. Синтезированные сигналы являются упрощенными сигналами, звучание которых определяется лишь ограниченным подмножеством того множества акустических параметров, которые используются для передачи фонетической информации в естественной речи. Кроме того, в сравнении с естественной речью, акустические параметры, используемые для представления текста в синтезированной речи, значительно стилизованы и не могут в полной мере передать фонетический контекст.

Множество сообщений. Шестой фактор связан со структурой множества (набора) сообщений. Иными словами, этот фактор связан с ограничениями на число возможных сообщений, а также на их организацию и лингвистические свойства. Набор сообщений может состоять из слов, которые различаются только одной фонемой, или из слов и фраз, которые сильно отличаются по длине, характеру ударения и фонотактическим структурам. Использование этих особенностей слушателями зависит от их лингвистических познаний. Выбор определенных звуков речи и образование из них слов ограничены и подчиняются фонологическим правилам языка, формирование предложений из отдельных слов подчиняется правилам синтаксиса и, наконец, смысл отдельных слов и общий смысл предложений в тексте определяется семантикой и прагматикой языка. Вклад этих уровней лингвистических структур в восприятие сильно меняется в зависимости от того, что воспринимается: изолированные слова, предложения или отрывки беглой речи.

Опыт и тренировка. Седьмой фактор связан со способностью слушателя быстро обучаться эффективным стратегиям восприятия и опознания для улучшения правильности распознавания почти в любой задаче. Если человеку обеспечить условия для обучения при наличии соответствующей обратной связи, то он может научиться классифицировать новые стимулы, запоминать сложные последовательности входных сигналов и реагировать на быстрые изменения входных сигналов в разных сенсорных модальностях. Очевидно, что способность слушателя гибко адаптироваться к требованиям конкретной задачи является важным фактором, который вносит определенные ограничения и который следует учитывать и управлять им в процессе оценки восприятия синтезированной речи.

Когнитивный стиль, определяющий индивидуальные особенности переработки информации. Наконец, восьмой фактор связан с тем, что синтезированная речь неотделима от внедрения новых комплексных технологий, что влечет за собой не только появление новых возможностей, но и требует постановки и решения ряда психологических проблем, прежде всего учета человеческого фактора в системе «пользователь -современные информационные технологии». Это, в свою очередь, возможно путем формировании нового профессионального мировоззрения современного специалиста – модели когнитивного стиля, процесса сложного и неоднозначного, которому обязательно сопутствуют значительные трансформации личностных характеристик. Так как индивидуальный стиль деятельности формируется как интегральный эффект взаимодействия субъекта и объекта, то вполне закономерно, что стиль может и должен изменяться при изменении условий деятельности.

В современной когнитивной психологии понятию «когнитивный стиль», его параметрам уделяется большое внимание [4]. До недавнего времени в рамках стилевого подхода существовало противопоставление стилевых и продуктивных характеристик интеллектуальной деятельности. В критериях, сформулированных Witkin, отмечалось, что стиль – это устойчивая характеристика личности, что к стилевым феноменам не применимы оценочные определения, что стиль проявляется генерализованно в различных психических сферах. Однако исследования последнего времени свидетельствуют о мобильности когнитивных стилей, которые могут изменяться под влиянием интеллектуальной нагрузки, обучения, мотивации. Стилевые качества не являются полностью генерализованными, они зависят от содержательной сферы, вида профессиональной деятельности.

Список литературы Психологические факторы, влияющие на правильность распознавания естественной и синтезированной речи

  • Nusbaum H.C., Piosoni D.B. Some constraints on the perception of synthetic speech, Behavior Res. Methods instrum. 1983
  • Nusbaum H.C., Pisoni D.B. Perceptual evaluation of synthetic speech: Some constraints on the use of voice response systems//Proc. 3rd Voice Data Entry Systems Applications Conf. Sunnyvale, CA, Lockheed, 1983
  • Shiffrin R.M.and Schneider W. Controlled and automatic human information processing//Psychological Review. -1984. -№ 2
  • Холодная М.А. Когнитивные стили. О природе индивидуального ума. -М., 2002
Статья