Компьютерное распознавание и порождение речи

Глава 1. Программирование звука в Windows.

В начало главы

Дальше

Общие соображения

Для того чтобы распознать речь, надо получить эту речь в некотором удобном виде, то есть в цифровом виде, виде пригодном для обработки. Синтезированный в цифровой форме сигнал необходимо сделать слышимым. Поэтому первым и последним этапом в работе системы речевого общения будет интерфейс, посредством которого программа получает звук от звукового адаптера или передает сигнал на звуковой адаптер для воспроизведения. Мы рассматриваем как эти задачи решаются в операционных системах MS Windows. Мы обнаруживаем, что, к счастью, мы избавлены от необходимости программирования на уровне портов ввода-вывода, прерываний и каналов прямого доступа (мы даже можем себе позволить вообще не знать, что это такое). Всю эту работу за нас проделает библиотека winmm.dll, входящая в стандартную поставку любой операционной системы Windows. Нам будет необходимо лишь указать компоновщику на необходимость присоединения этой библиотеки при трансляции кода, а в самой программе подключить заголовочный файл mmsystem.h, где находятся описания всех необходимых нам функций.

В библиотеке winmm.dll определены функции низкого и высокого уровня. Функции низкого уровня позволяют нам, например получить доступ к буферу, посредством которого происходит обмен данными программы и звукового адаптера с тем, чтобы обработать эти данные, или получить доступ к данным в звуковом файле формата RIFF ( например, с расширением .wav). Там же, где нам просто необходимо, например, записать или воспроизвести звуковой файл, необходимости прибегать к функциям низкого уровня нет и мы можем воспользоваться функциями высокого уровня. То есть функции низкого уровня работают непосредственно с драйвером звукового устройства, в то время как функции высокого уровня вызывают функции низкого уровня. Функций высокого уровня коснемся вскользь, поскольку в основном нам предстоит как раз либо обрабатывать буфер обмена драйвера адаптера и программы либо работать со структурой звукового файла.

Распознавание речи. Обработка текстов на естественном языке.