广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (2): 22-26.

• • 上一篇    下一篇

基于听觉模型特征的与文本无关说话人识别系统

卢小春1,2, 尹俊勋1, 王修信2   

  1. 1.华南理工大学电子与信息工程学院,广东广州 510640;
    2.广西师范大学计算机与信息工程学院,广西桂林 541004
  • 收稿日期:2009-12-31 出版日期:2010-06-20 发布日期:2023-02-07
  • 通讯作者: 尹俊勋(1942—),男,广东东莞人,华南理工大学教授,博士生导师。E-mail:eejyin@scut.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(60275005)

An Auditory Feature for Text-independent Speaker Recognition System

LU Xiao-chun1,2, YIN Jun-xun1, WANG Xiu-xin2   

  1. 1. School of Electronic and Information Engineering,South China University of Technology,Guangzhou Guangdong 510640,China;
    2. College of Computer and Information Technology,Guangxi Normal University, Guilin Guangxi 541004,China
  • Received:2009-12-31 Online:2010-06-20 Published:2023-02-07

摘要: 基于听觉生理和心理学的感知机理,提出一种适于说话人识别的特征参数提取方法。该方法采用Gammatone滤波器组代替常用的三角形滤波器组计算出语音信号各子带能量,根据等效矩形带宽模型,确定了各个滤波器的中心频率与带宽。同时从语音信号各子频带携带的说话人个性特征信息量角度分析对滤波器子带进行加权处理,最后结合倒谱均值减方法对特征进行处理,最终生成具有较高鲁棒性的特征。采用高斯混合模型对说话人进行建模,仿真实验的结果表明:提出的特征参数对含噪语音的与文本无关说话人识别具有较好的效果,在低信噪比情况下,具有比传统特征参数更好的噪声鲁棒性。

关键词: 听觉感知特性, Gammatone滤波器组, 子频带加权, 说话人识别

Abstract: The paper proposes a novel feature based on an auditory periphery model for robust speaker recognition.The sub-band energies of theextracted auditory features are calculated using a Gammatone filterband insteadof commonly used triangle filter band.The center frequencies and bandwidthsare then determined according to the equivalent rectangular bandwidth (ERB) model.Moreover,weighting the Gammatone filter bank by analyzing contribution of short-time spectrum in different frequency sub-bands,and using the CMS method toremove the varibility of channels are also investigated.Simulation results withGaussian Mixture model indicate that the recognition accuracy is significantly improved by this auditoryfeature in the noisy environments for the text-indepentent speaker recognition,especially in low SNR environments.

Key words: auditory feature, Gammatone filter bank, sub-band weighting, speaker recognition

中图分类号: 

  • TP391.42
[1] ZHANG Wan-feng,WU Zhao-hui,YANG Ying-chun,et al.Feature combination for speaker identification[J].Journal of Guangxi Normal University:Natural Science Edition,2003,21(1):10-15.
[2] DAVIS S B,MERMELSTEIN P.Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1980,28(4):357-366.
[3] COLOMBI J M,ANDERSON T R,ROGERS S K.Auditory model representationfor speaker recogniton[C]//Proc ICASSP.Piscataway,NJ:IEEE Press,1993:700-703.
[4] 卢绪刚,陈道文.听觉计算模型在鲁棒性语音识别中的应用[J].声学学报,2000,25(6):493-498.
[5] 张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报:自然科学版,2009,49(1):78-81.
[6] 俞一彪,袁冬梅,薛峰.一种适于说话人识别的非线性频率尺度变换[J].声学学报,2008,33(5):451-455.
[7] ZWICKER E,FASTL H.Psychoacoustic:facts and models[M].Berlin:Springer,1999.
[8] PATTERSON R,NIMMO-SMITH I,HOLDSWORTH J,et al.An efficient auditory filterbank based on the Gammatone function[C]//Proc.Meeting of the Instituteof Acoustics on Auditory Modeling.Malvern:RSRE,1987:1-18.
[9] CHEN C,CHENG P.Hybrid KLT-GMM approach for robust speaker identification[J].IEE Electronics Letters,2003,39(21):1552-1554.
No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 1 -4 .
[2] 许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 5 -9 .
[3] 阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 1 -4 .
[4] 贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 1 -23 .
[5] 白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 1 -4 .
[6] 许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 5 -9 .
[7] 王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 10 -14 .
[8] 黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 15 -19 .
[9] 贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 20 -23 .
[10] 陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 24 -28 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发