Оглавление.Введение. Общие вопросы компьютерного распознавания и порождения речи.1. Программирование звука в Windows. 2. Основы цифровой обработки звуковых сигналов. 3. Определение параметров речевого сигнала. 4. Алгоритмы распознавания. 5. Использование Microsoft Speech API 5.1 для синтеза и распознавания речи. 6. Использование Microsoft Speech API 4.0 для синтеза речи. Ссылки. Об авторе. |
Компьютерное распознавание и порождение речиГлава 3. Определение параметров речевого сигнала.
3.5. Распределение энергии сигнала по частотным группам.В результате преобразования Фурье мы получаем комплексные коэффициенты
разложения: действительная часть соответствует ReX, мнимая – ImX.
Абсолютное значение: MagX[k]=sqrt(Re2X[k]+Im2X[k]) здесь sqrt - квадратный корень Фаза: PhaseX[k]=arctan(ImX[k]/ReX[k]). Эта форма в нашем случае полезна по той причине, что для человеческого слуха, оказывается, фаза практически не имеет значения. То есть оперируя только абсолютными значениями, мы уменьшим вдвое количество входных параметров распознающей системы, не потеряв при этом значимой информации.
На помощь приходит то, что человеческий слух имеет свойство образовывать частотные группы. То есть мы можем заменить абсолютные значения амплитуд в частотном домене на некоторую величину, характеризующую суммарную амплитуду частот, попадающих в определенную группу. Число групп может порядка нескольких десятков, при этом группы в высоких частотах должны иметь больший диапазон, чем в низких, так как человеческий слух более точно распознает частоты в низком поддиапазоне звуковых волн и менее точно – по мере увеличения частоты. В качестве входящих параметров распознавания можно использовать распределение энергии сигнала по этим частотным группам. Значение распределения для i-й частотной группы будет вычисляться по формуле:
где b[i] - индекс первой частоты в i-й частотной группе, n[i] - индекс последней частоты в i-й частотной группе, N/2 – общее число частотных групп. Этот показатель хорош еще и тем, что является нормализованным, безразмерным, ведь человеческий слух реагирует не на абсолютные значения амплитуд каких-либо частот, а на их соотношения друг с другом. |