Быстрое преобразование Фурье и его применение в распознавании речи
Автор: Бугаев Д.С., Гимазитдинов Е.И., Забенков А.А., Букреев П.Э.
Журнал: Экономика и социум @ekonomika-socium
Рубрика: Информационные и коммуникативные технологии
Статья в выпуске: 3-3 (16), 2015 года.
Бесплатный доступ
Короткий адрес: https://sciup.org/140114201
IDR: 140114201
Текст статьи Быстрое преобразование Фурье и его применение в распознавании речи
В наше время в алгоритмах связанных с распознаванию речи направлены по двум направления это прежде всего фундаментальное исследование задачей данного исследования является создание и отладка новых методов анализа звука, так же есть так называемое прикладное исследование задачей которого являются улучшение методов для определенной задачи.
Прикладные исследования необходимы для получения быстрого улучшения методов, в то время как фундаментальные исследования необходимы для получения долгосрочной выгоды.
Добиться улучшения результатов можно, улучшив
Диапазон распознанных слов
Случайность речи
Зависимость/независимость от диктора;
Время, необходимое для приведения системы в движение;
Время приспособления системы для новых пользователей;
Время выбора и распознавания[1];
В настоявший момент системы анализа звукового потока базируются на получении формы распознания. Алгоритмы использующиеся до настоявшего времени могут быть разделены на 4 класса:
Методы дискриминантного анализа, основанные на Байесовской дискриминации;
Скрытые модели Маркова;
Динамическое программирование – временные динамические алгоритмы (DTW);
Нейронные сети[3];
Поговорим подробно о Алгоритме динамического трансформирования времени (DTW)основанного на Быстром преобразовании Фурье.
Этот алгоритм работает так: вычисляет оптимальное расстояние между двумя временными рядами потом сохраняет их коэффициенты. Допустим у нас есть вектор, а и b. Длин этих векторов разная. Алгоритм рассчитывает отклонение между двух прямых, так называемое Евклидово расстояние, и записываем все в матрицу[2]. Самый распространенный способ вычисления расстояния , это вычисления по формуле расстояния абсолютного отклонения, данная формула продемонстрирована на рисунке 1.
определяется при помощи алгоритма динамического программирования и следующего критерия оптимизации, показано на рисунке 2

Рис.2Формула вычисления минимального отклонения
Далее все записывается в матрицу отклонений ,она продемонстрирована на рисунке 3.

абсолютного отклонения
Рис.1 Формула
Минимальное расстояние в матрице между последовательностями
-2 |
10 |
-10 |
15 |
-13 |
20 |
-5 |
14 |
2 |
|
3 |
5- |
>12- |
> 25- |
>37^ |
53 |
70 |
78 |
89 |
90 |
-13 |
16 |
28 |
15 |
43 |
^37„ |
70 |
78 |
105 |
104 |
14 |
32 |
20 |
39 |
16 |
43 |
62 |
62 |
74 |
|
-7 |
37 |
37 |
23 |
38 |
22 |
49 |
. 66 |
71 |
|
9 |
48 |
38 |
42 |
29 |
44 |
33 |
47 |
50, |
57 |
-2 |
4В |
50 |
46 |
46 |
40 |
55 |
36 |
52 |
4 54 |
Рисунок 4.Звуковая характеристика звука “НОС”
Метод использует три числовых уровня: два для энергии (верхний, нижний) и один для среднего пересечения нулевого уровня. Точка, начиная с которой энергия перекрывает верхний уровень и уровень положительных и отрицательных значений, не отменяет установленный уровень, который считается отправной точкой голосового звучания (не тишины). Поиск первой такой точки производится путем скрещивания импульсов от начала и до конца, и это определит первую область с речью. Обратный переход, из конца в начало, позволяет определить конечную точку последней области с речью. Определение внутри области может быть сделано путем скрещивания импульсов между двумя этими точками. Начало глухой области начинается в точке, в которой энергия становится меньше значения нижнего уровня.
Заключение
Алгоритмы основанный на быстром преобразования Фурье очень хороши в словаре в котором небольшой набор слов. В DTW используются модель Макова. В алгоритме DTW сложность составляет O(n*n*v )где n длинна входной последовательности, а v количество слов в слове .Он очень плох в тех системах гдe,требуется быстро вычислить ,так как этот алгоритм имеет полиномиальную сложность ,зато он довольно таки четко определяет входную последовательность
Список литературы Быстрое преобразование Фурье и его применение в распознавании речи
- Динамическое программирование в алгоритмах распознавания речи -Режим доступа http://habrahabr.ru/post/135087/, свободный.
- Н.Н.Калиткин, И.П.Пошивайло. О вычислении простых и кратных корней нелинейного уравнения//Матем. моделирование. 2008, т.20, №7, с.57-64.
- Постников М.М. Устойчивые многочлены. -М.: Наука, 1981, 176 с.