目 录 前 言 3 第1章 语音信号的特点 6 第1.1节 语音产生机理 6 第1.2节 语音的信号特性 6 第1.3节 掩蔽效应 7 第1.4节 共振峰 8 第2章 语音信号特征参数及提取 10 第2.1节 语音信号分析基础 10 第2.2节 倒谱介绍 10 第2.3节 线性预测系数(LPC) 10 第2.4节 线性预测倒谱系数(LPCC) 10 第2.5节 MEL频率倒谱系数MFCC 11 第3章 语音识别模型 13 第3.1节 语音识别模型 13 第3.2节 动态时间弯折 13 第3.3节 隐马尔可夫模型 14 第3.4节 人工神经网络方法 15 第4章 语音识别的实现 17 第4.1节 系统的设计 17 第4.2节 Speech SDK 17 第4.3节 设计的实现 18 第5章 测试,总结 23 第5.1节 系统测试 23 第5.2节 总结 24 参考资料 26 致 谢 27 【摘要】:二十世纪五十年代以来,语音识别的技术发展迅速。作为一门交叉学科,语音识别己经形成了完整的理论体系,基于PC平台的语音识别系统的研究也在技术上获得了一些成功。尽管目前各种各样的语音识别产品相继涌现,但在许多特定领域,由于其环境的特殊性,往往需要专门开发,以适应实际需要。 本文首先介绍了语音识别的研究与发展状况,对语音识别的历史、存在的问题、发展的方向等方面做了全面总结,为进一步研究语音识别奠定良好的基础。然后深入研究了语音识别过程中的各个环节,找出了语音信号分析、特征参数提取,HMM模型应用等这些薄弱环节,并进行深入分析,确定词汇量语音识别系统的语音分析方法、特征参数及HMM模型的应用方式。同时提出快读打字员(Stenotypist)语音识别系统的总体设计方案。根据设计方案,基于SDK开发平台,结合HTK工具中封装函数,利用Visual C++程序语言进行了系统开发,编写语音信号预处理、特征参数提取、模式训练、语音识别等程序,实现语音识别引擎,生成语音识别应用程序。 测试结果表明本系统较好地满足了连续语音识别的要求,学习者经过训练之后,其识别率可以达到80-90%,取得了很好的效果。最后,总结论文主要完成的工作以及系统的特点,同时指出了本系统下一步需要改进和完善的方面。 【关键词】:语音识别;Speech SDK;快速打字员 第1.3节 掩蔽效应 掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较不为敏感。例如在声音的整个频率谱中,如果某一个频率段的声音比较强,则人就对其它频率段的声音不敏感了。应用此原理,人们发明了mp3等压缩的数字音乐格式,在这些格式的文件里,只突出记录了人耳朵较为敏感的中频段声音,而对于较高和较低的频率的声音则简略记录,从而大大压缩了所需的存储空间。在人们欣赏音乐时,如果设备对高频响应得比较好,则会使人感到低频响应不好,反之亦然。 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。 1.3.1. 频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneousmasking),如图1-1所示。从图1-1可以看到,声音频率在300Hz附近、声强约为60dB的声音掩蔽了声音频率在150Hz附近、声强约为40db的声音。又如,一个声强为60dB、频率为1000Hz的纯音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能听到那个1000Hz的强音。如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000Hz的纯音也听不到,则需要把它降到比1000Hz的纯音低45dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。 |