Компьютерное распознавание и порождение речи

Глава 3. Определение параметров речевого сигнала.

В начало главы

Дальше

3.5. Распределение энергии сигнала по частотным группам.

В результате преобразования Фурье мы получаем комплексные коэффициенты разложения: действительная часть соответствует ReX, мнимая – ImX.
При этом нас будут интересовать только N/2 первых значений полученного массива коэффициентов (остальные будут равны нулю).
Как известно, комплексное число можно представить в виде абсолютного значения и фазы (полярная форма):

Абсолютное значение:

MagX[k]=sqrt(Re²X[k]+Im²X[k])

здесь sqrt - квадратный корень

Фаза:

PhaseX[k]=arctan(ImX[k]/ReX[k]).

Эта форма в нашем случае полезна по той причине, что для человеческого слуха, оказывается, фаза практически не имеет значения. То есть оперируя только абсолютными значениями, мы уменьшим вдвое количество входных параметров распознающей системы, не потеряв при этом значимой информации.
Но даже такое число параметров является слишком большим, что приводит к чрезмерному усложнению процесса обучения распознающей системы, что будет понятно, когда будут рассматриваться алгоритмы распознавания. Например, при частоте дискретизации 16000 мы имеем 8000 частот, то есть 8000 входных параметров.

На помощь приходит то, что человеческий слух имеет свойство образовывать частотные группы. То есть мы можем заменить абсолютные значения амплитуд в частотном домене на некоторую величину, характеризующую суммарную амплитуду частот, попадающих в определенную группу. Число групп может порядка нескольких десятков, при этом группы в высоких частотах должны иметь больший диапазон, чем в низких, так как человеческий слух более точно распознает частоты в низком поддиапазоне звуковых волн и менее точно – по мере увеличения частоты.

В качестве входящих параметров распознавания можно использовать распределение энергии сигнала по этим частотным группам. Значение распределения для i-й частотной группы будет вычисляться по формуле:

n[i] N/2
P[i]=( ∑ Mag²X[k]) / ( ∑ Mag²X[k])
k=b[i] k=1

где b[i] - индекс первой частоты в i-й частотной группе, n[i] - индекс последней частоты в i-й частотной группе, N/2 – общее число частотных групп. Этот показатель хорош еще и тем, что является нормализованным, безразмерным, ведь человеческий слух реагирует не на абсолютные значения амплитуд каких-либо частот, а на их соотношения друг с другом.

Распознавание речи. Обработка текстов на естественном языке.