|
广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (2): 22-26.
卢小春1,2, 尹俊勋1, 王修信2
LU Xiao-chun1,2, YIN Jun-xun1, WANG Xiu-xin2
摘要: 基于听觉生理和心理学的感知机理,提出一种适于说话人识别的特征参数提取方法。该方法采用Gammatone滤波器组代替常用的三角形滤波器组计算出语音信号各子带能量,根据等效矩形带宽模型,确定了各个滤波器的中心频率与带宽。同时从语音信号各子频带携带的说话人个性特征信息量角度分析对滤波器子带进行加权处理,最后结合倒谱均值减方法对特征进行处理,最终生成具有较高鲁棒性的特征。采用高斯混合模型对说话人进行建模,仿真实验的结果表明:提出的特征参数对含噪语音的与文本无关说话人识别具有较好的效果,在低信噪比情况下,具有比传统特征参数更好的噪声鲁棒性。
中图分类号:
[1] ZHANG Wan-feng,WU Zhao-hui,YANG Ying-chun,et al.Feature combination for speaker identification[J].Journal of Guangxi Normal University:Natural Science Edition,2003,21(1):10-15. [2] DAVIS S B,MERMELSTEIN P.Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1980,28(4):357-366. [3] COLOMBI J M,ANDERSON T R,ROGERS S K.Auditory model representationfor speaker recogniton[C]//Proc ICASSP.Piscataway,NJ:IEEE Press,1993:700-703. [4] 卢绪刚,陈道文.听觉计算模型在鲁棒性语音识别中的应用[J].声学学报,2000,25(6):493-498. [5] 张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报:自然科学版,2009,49(1):78-81. [6] 俞一彪,袁冬梅,薛峰.一种适于说话人识别的非线性频率尺度变换[J].声学学报,2008,33(5):451-455. [7] ZWICKER E,FASTL H.Psychoacoustic:facts and models[M].Berlin:Springer,1999. [8] PATTERSON R,NIMMO-SMITH I,HOLDSWORTH J,et al.An efficient auditory filterbank based on the Gammatone function[C]//Proc.Meeting of the Instituteof Acoustics on Auditory Modeling.Malvern:RSRE,1987:1-18. [9] CHEN C,CHENG P.Hybrid KLT-GMM approach for robust speaker identification[J].IEE Electronics Letters,2003,39(21):1552-1554. |
No related articles found! |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |