【网学提醒】:本文主要为网上学习者提供音频信息检索技术,希望对需要音频信息检索技术网友有所帮助,学习一下吧!
资料包括: 论文(2页2099字)
说明:众所周知,我们日常接触的网络空间中包含着许多多媒体数据,比如视频、图像和音频。而基于文本检索的常规信息检索技术能力非常有限,所以对更加有效的音频数据检索技术的研究显得日益重要。在今天听了语音处理研究室的博导韩纪庆老师为我们介绍了一些语音信号处理新进展的报告后,在基于语音的信息安全技术;音频信息检索技术;语音合成技术三个方向,我对音频信息检索技术的兴趣最浓厚,我做了一番调研,了解到:
对图像和视频,可以采用主色调、纹理等视觉特征来检索;而对于音频,需要通过听觉特征进行检索。主要需要一下两个主要步骤:
1 音频数据预处理
音频有别于一般数据,音频检索是以波形声音为对象的检索,都统一用声学特征来检索,使用户能从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要完成的工作。音频数据的训练、分类和分割方便了音频数据库的浏览和查找,这里指的音频检索就是针对广泛的声音数据的检索,分析和检索的音频可以包含语音和音乐,但是采用的是更一般性的声学特性分析方法。检索前需要进行预处理或进行媒体转换,以提取音频特征。音频有其自身的特点和属性,在音频数据中提取特征有两种方法:
①提取感性特征,如音高、响度,
②计算非感性属性或称作物理特性,如对数倒频谱系数、线性预测系数。特征提取多在频域进行,故先对音频数据进行加窗处理,加窗大小在10~30ms 左右;然后对加窗后的数据即每一帧作离散傅里叶变换(DFT) 或进行小波变换。
常见的特征。
(1) 响度 (2) 音调 (3) 过零率 (4) Mel2伸缩对数倒频谱系数 (5) 线性预测系数,概念的具体叙述,就不赘述了。然后通过多分辨率分析和小波分析;特征元素向量的提取,两种方法实现的预处理功能。
目录:1 音频数据预处理
2 基于特征向量的音频数据分类检索
3 总结
作者点评:以上提出的基于关联规则的音频检索方法,与常用的基于信号统计的方法、基于短时Fourier 变换和小波变换相比,由于提出的方法采用通过发现音频数据的特征元素向量与音频所属类别之间的关联规则来对音频数据分类检索,所需的数学运算很少,在不影响检索效率的前提下,可以大大缩短计算时间,更适用于大规模的音频数据库。目前我们正在进一步研究对音频数据进行去噪处理,对音频信号其他特征向量的提取方法,从而进一步提高音频检索效率。