Быстрое преобразование Фурье и его применение в распознавании речи

Автор: Бугаев Д.С., Гимазитдинов Е.И., Забенков А.А., Букреев П.Э.

Журнал: Экономика и социум @ekonomika-socium

Рубрика: Информационные и коммуникативные технологии

Статья в выпуске: 3-3 (16), 2015 года.

Бесплатный доступ

Короткий адрес: https://sciup.org/140114201

IDR: 140114201

Текст статьи Быстрое преобразование Фурье и его применение в распознавании речи

В наше время в алгоритмах связанных с распознаванию речи направлены по двум направления это прежде всего фундаментальное исследование задачей данного исследования является создание и отладка новых методов анализа звука, так же есть так называемое прикладное исследование задачей которого являются улучшение методов для определенной задачи.

Прикладные исследования необходимы для получения быстрого улучшения методов, в то время как фундаментальные исследования необходимы для получения долгосрочной выгоды.

Добиться улучшения результатов можно, улучшив

Диапазон распознанных слов

Случайность речи

Зависимость/независимость от диктора;

Время, необходимое для приведения системы в движение;

Время приспособления системы для новых пользователей;

Время выбора и распознавания[1];

В настоявший момент системы анализа звукового потока базируются на получении формы распознания. Алгоритмы использующиеся до настоявшего времени могут быть разделены на 4 класса:

Методы дискриминантного анализа, основанные на Байесовской дискриминации;

Скрытые модели Маркова;

Динамическое программирование – временные динамические алгоритмы (DTW);

Нейронные сети[3];

Поговорим подробно о Алгоритме динамического трансформирования времени (DTW)основанного на Быстром преобразовании Фурье.

Этот алгоритм работает так: вычисляет оптимальное расстояние между двумя временными рядами потом сохраняет их коэффициенты. Допустим у нас есть вектор, а и b. Длин этих векторов разная. Алгоритм рассчитывает отклонение между двух прямых, так называемое Евклидово расстояние, и записываем все в матрицу[2]. Самый распространенный способ вычисления расстояния , это вычисления по формуле расстояния абсолютного отклонения, данная формула продемонстрирована на рисунке 1.

определяется при помощи алгоритма динамического программирования и следующего критерия оптимизации, показано на рисунке 2

Рис.2Формула     вычисления     минимального     отклонения

Далее все записывается в матрицу отклонений ,она продемонстрирована на рисунке 3.

абсолютного отклонения

Рис.1         Формула

Минимальное расстояние в матрице между последовательностями

-2

10

-10

15

-13

20

-5

14

2

3

5-

>12-

> 25-

>37^

53

70

78

89

90

-13

16

28

15

43

^37„

70

78

105

104

14

32

20

39

16

43

62

62

74

-7

37

37

23

38

22

49

. 66

71

9

48

38

42

29

44

33

47

50,

57

-2

50

46

46

40

55

36

52

4 54

Рисунок 4.Звуковая характеристика звука “НОС”

Метод использует три числовых уровня: два для энергии (верхний, нижний) и один для среднего пересечения нулевого уровня. Точка, начиная с которой энергия перекрывает верхний уровень и уровень положительных и отрицательных значений, не отменяет установленный уровень, который считается отправной точкой голосового звучания (не тишины). Поиск первой такой точки производится путем скрещивания импульсов от начала и до конца, и это определит первую область с речью. Обратный переход, из конца в начало, позволяет определить конечную точку последней области с речью. Определение внутри области может быть сделано путем скрещивания импульсов между двумя этими точками. Начало глухой области начинается в точке, в которой энергия становится меньше значения нижнего уровня.

Заключение

Алгоритмы основанный на быстром преобразования Фурье очень хороши в словаре в котором небольшой набор слов. В DTW используются модель Макова. В алгоритме DTW сложность составляет O(n*n*v )где n длинна входной последовательности, а v количество слов в слове .Он очень плох в тех системах гдe,требуется быстро вычислить ,так как этот алгоритм имеет полиномиальную сложность ,зато он довольно таки четко определяет входную последовательность

Список литературы Быстрое преобразование Фурье и его применение в распознавании речи

  • Динамическое программирование в алгоритмах распознавания речи -Режим доступа http://habrahabr.ru/post/135087/, свободный.
  • Н.Н.Калиткин, И.П.Пошивайло. О вычислении простых и кратных корней нелинейного уравнения//Матем. моделирование. 2008, т.20, №7, с.57-64.
  • Постников М.М. Устойчивые многочлены. -М.: Наука, 1981, 176 с.
Статья