Оглавление.

Введение. Общие вопросы компьютерного распознавания и порождения речи.

1. Программирование звука в Windows.

2. Основы цифровой обработки звуковых сигналов.

3. Определение параметров речевого сигнала.

4. Алгоритмы распознавания.

5. Использование Microsoft Speech API 5.1 для синтеза и распознавания речи.

6. Использование Microsoft Speech API 4.0 для синтеза речи.

Ссылки.

Об авторе.

Компьютерное распознавание и порождение речи

Глава 3. Определение параметров речевого сигнала.

Назад В начало главы Дальше

3.4. Коэффициенты линейного предсказания.

Суть линейного предсказания в нахождении коэффициентов ak (k=1..p) для формулы:
p
x[n] = (ak x[n-k])(1)
k=1
и последующем использовании этой формулы. Другими словами мы должны построить линейный многочлен, позволяющий с хорошей точностью вычислять значение любого отсчета в сигнале по значениям предыдущих p отсчетов. Коэффициенты ak и называются коэффициентами линейного предсказания.

Фактически, имея некоторый сигнал, мы имеем статистическую выборку которую можно представить в виде таблицы:

х[n-p] х[n-p+1] х[n-p+2] . . . х[n-1] х[n]
х[0] х[1] х[2] . . . x[p-1] x[p]
х[1] х[2] х[3] . . . x[p] x[p+1]
х[2] х[3] х[4] . . . x[p+1] x[p+2]
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
х[N-p-1] х[N-p] х[N-p+1] . . . x[N-2] x[N-1]

То есть нахождение коэффициентов линейного предсказания сводится к вычислению коэффициентов линейной регрессии для данной статистической выборки и мы можем пользоваться методами математической статистики.

Минимизируем сумму квадратов ошибок для каждого из вычисляемых отсчетов.
Ошибка для отсчета x[n] равна

p
δ[n] = x[n] - (ak x[n-k]) (2)
k=1

А минимизируемая функция равна

N-1N-1pN-1N-1p
E = δ2[n] = x[n] - (ak x[n-k]))2 = x2[n] - 2 x[n] (ak x[n-k]) )+
n=0n=0k=1n=0n=0k=1

N-1pN-1pN-1
+((ak x[n-k]))2 = x2[n] - 2(ak(x[n] x[n-k])) +
n=0k=1n=0k=1n=0

ppN-1
+ak aj (x[n-k]x[n-j])) (3)
j-1k=1n=0

Продифференцируем E по ak и приравняем частные производные нулю для нахождения экстремума:

N-1pN-1
dE/dak =(x[n] x[n-k])) + aj (x[n-k]x[n-j]))=0(4)
n=0j=1n=0

Заменив для удобства восприятия j на i, а k на j получим систему p линейных уравнений c p неизвестными :

p
aicij=c0j (5.1)
i=1

где

N-1
cij=cji=x[n-i]x[n-j]) (5.2)
n=0

Эта система называется системой уравнений Юла-Уокера. Погрешность найденных коэффициентов оценивается как:

pppp
E = c00-2aic0i+ aiajcij = c00 - aic0i(6)
i=1i=1j=1i=1

Есть два основных подхода для решения системы уравнений Юла-Уокера.


Распознавание речи. Обработка текстов на естественном языке.
Hosted by uCoz