Оглавление.Введение. Общие вопросы компьютерного распознавания и порождения речи.1. Программирование звука в Windows. 2. Основы цифровой обработки звуковых сигналов. 3. Определение параметров речевого сигнала. 4. Алгоритмы распознавания. 5. Использование Microsoft Speech API 5.1 для синтеза и распознавания речи. 6. Использование Microsoft Speech API 4.0 для синтеза речи. Ссылки. Об авторе. |
Компьютерное распознавание и порождение речиГлава 2. Основы цифровой обработки звуковых сигналов.
2.1. Основные понятия.Под сигналом будем понимать некую скалярную функцию, зависящую от одного или нескольких аргументов. На практике наиболее часто речь идет о зависимости некоторой величины от времени. Эта функция может быть задана аналитически (при помощи формулы) или в виде таблицы соответствия ее значений значениям аргумента, идущим подряд на оси времени. Если таковая функция задается непрерывной, то и сигнал называют непрерывным. Если функция дискретна – то и сигнал дискретен. Для дискретных отсчетов обычно временной отрезок делится на равные интервалы, которые затем нумеруются и номера служат аргументами функции-сигнала. Каждую пару “значение аргумента - значение функции” для дискретных сигналов называют отсчетом. Под системой будем понимать нечто, например процесс, которое получает на входе сигнал и выдает сигнал на выходе. Большинство систем в природе попадают под понятие линейных. Линейной называется такая система, которая обладает свойствами аддитивности и однородности. Зачастую для линейных систем выставляется также требование обладать свойством инвариантности относительно смещения. Однородность системы означает то, что если она преобразует входной сигнал x[n] в выходной сигнал y[n], то она должна переводить сигнал kx[n] в сигнал ky[n] для любой постоянной k. То есть усиление или ослабление в k раз входного сигнала должно привести к усилению или ослаблению в такое же число раз выходного сигнала. Аддитивность системы означает то, что если она преобразует входной сигнал x1[n] в выходной сигнал y1[n], а входной сигнал x2[n] в y2[n], то она должна переводить входной сигнал x1[n]+ x2[n] в выходной сигнал y1[n] +y2[n]. Инвариантность системы относительно смещения означает, что если она преобразует входной сигнал x1[n] в выходной сигнал y1[n], то она должна переводить сигнал x2[n]=x[n+s] в сигнал y2[n]=y[n+s] для любых целых s. Примерами линейных систем могут служить среды распространения звуковых или электромагнитных волн, электронные схемы, например усилители и фильтры, и многие другие системы. Декомпозицией называется разложение сигнала на составляющие, сумма которых равна исходному сигналу. Наиболее распространенными видами декомпозиции являются импульсное разложение и разложение Фурье. Импульсное разложение делит сигнал длиной N отсчетов на N сигналов по N отсчетов. Каждый из результирующих сигналов содержит один отсчет равный значению отсчета с этим номером в исходном сигнале и N-1 отсчетов равных нулю. Для первого сигнала ненулевой отсчет будет иметь номер 1, для второго – номер 2 и так далее. Импульсное разложение позволяет рассматривать сигнал по одной точке. Зная, как линейная система реагирует на один одиночный импульс мы, пользуясь свойствами однородности, и инвариантности к смещению, можем получить реакцию системы на все остальные импульсы, смещая выходной сигнал на смещение любого импульса относительно импульса-образца и умножая выходной сигнал на отношение амплитуды импульса к амплитуде импульса-образца. Полученные таким образом сигналы мы можем сложить и, поскольку линейная система обладает свойством аддитивности, сделать вывод о том что результат эквивалентен тому, который мы получили бы, если бы пропустили через систему сигнал до того, как подвергли его импульсному разложению. Это метод называется сверткой и будет рассмотрен совсем скоро. Разложение Фурье делит исходный сигнал на составляющие, половина которых является косинусоидальными, а половина – синусоидальными сигналами. Разложение Фурье является важным, во-первых, потому, что для линейных систем синусоида на входе дает синусоиду на выходе (причем той же частоты – отличаться могут только амплитуда и фаза), а во-вторых, из-за того, что разложение Фурье имеет хорошо разработанный математический аппарат. Ну и кроме того, а может быть, и в первую очередь, потому, что очень многие сигналы в природе имеют синусоидальныю форму. Это относится и к интересующим нас звуковым волнам. |