综合精品欧美日韩国产在线,欧美成人精品一区二区三区,亚洲欧美18岁网站

基于VQ-MAP與LS-SVM融合的說(shuō)話人識(shí)別系統(tǒng)

來(lái)源：電子技術(shù)應(yīng)用2010年第6期

展領(lǐng)，景新幸

桂林電子科技大學(xué) 信息與通信學(xué)院，廣西桂林 541004

摘要： 傳統(tǒng)的最小二乘支持向量機(jī)(LS-SVM)使用特征向量作為訓(xùn)練樣本,在說(shuō)話人識(shí)別系統(tǒng)中應(yīng)用時(shí)區(qū)分性不夠明顯。對(duì)此，提出VQ-MAP與LS-SVM融合的方法，使用通用背景模型(UBM)經(jīng)過(guò)VQ-MAP過(guò)程得到說(shuō)話人自適應(yīng)參數(shù)集，把此參數(shù)集作為最小二乘支持向量機(jī)的訓(xùn)練樣本應(yīng)用于說(shuō)話人識(shí)別系統(tǒng)中。用Matlab進(jìn)行仿真實(shí)驗(yàn)，結(jié)果表明，該識(shí)別系統(tǒng)SVM訓(xùn)練時(shí)間短，且具有較高的識(shí)別率。

關(guān)鍵詞： 工控機(jī)及人機(jī)界面 LS-SVM 識(shí)別系統(tǒng) 最小二乘支持向量機(jī) Matlab

中圖分類號(hào): TP391.4
文獻(xiàn)標(biāo)識(shí)碼： A

Speaker recognition system based on VQ-MAP and LS-SVM

ZHAN Ling， JING Xin Xing

Information & Communication College, Guilin University of Electronic Technology, Guilin 541004,China

Abstract： Feature vectors used as the training samples of the traditional least square support vector machines does not give enough information to discriminate the voice in speaker recognition system. To solve this problem,this paper proposes the method based on VQ-MAP and LS-SVM. Adaptive parameter sets are got through VQ-MAP procedure using universal background model and are used as the training samples of LS-SVM in speaker recognition system. According to the results of simulation using Matlab, speaker recognition system based on VQ-MAP and LS-SVM uses less the training time of SVMs and it also has high recognition rate.

Key words : MAP; VQ; LS-SVM; speaker recognition

    說(shuō)話人識(shí)別是從說(shuō)話人的一段語(yǔ)音中提取出說(shuō)話人的個(gè)性特征，通過(guò)對(duì)這些個(gè)性特征的分析和識(shí)別，從而達(dá)到對(duì)說(shuō)話人進(jìn)行辨認(rèn)或者確認(rèn)的目的。它可以分為兩個(gè)范疇：說(shuō)話人辨認(rèn)和說(shuō)話人確認(rèn)。說(shuō)話人辨認(rèn)是辨認(rèn)出待識(shí)別的語(yǔ)音是來(lái)自待考察的個(gè)人中的哪一個(gè)；而說(shuō)話人確認(rèn)則是特定的參考模型和待識(shí)別模式之間的比較，系統(tǒng)只做出“是”或“不是”的二元判決[1]。
　Ville Hautamaki[2]等人提出了最大后驗(yàn)概率矢量量化(VQ-MAP)過(guò)程，它可以看作是GMM-MAP的一種特殊形式；Suykens等人[3]提出了最小二乘支持向量機(jī)LS-SVM的概念，而志平等人[4]將最小二乘向量機(jī)應(yīng)用在說(shuō)話人識(shí)別系統(tǒng)中，并取得了較好的效果。
　VQ-MAP過(guò)程首先只依照均值對(duì)通用背景模型UBM(Universal Bakground Model)進(jìn)行聚類,然后應(yīng)用VQ-MAP過(guò)程來(lái)更新自適應(yīng)參數(shù),由此訓(xùn)練語(yǔ)音未覆蓋到的部分就可以用UBM中說(shuō)話人無(wú)關(guān)的特征分布近似,以減小訓(xùn)練語(yǔ)音太短帶來(lái)的影響。將得到的自適應(yīng)參數(shù)集作為最小二乘向量機(jī)的訓(xùn)練樣本，在說(shuō)話人識(shí)別中進(jìn)行應(yīng)用，取得了較好的效果。本文介紹了VQ-MAP和LS-SVM融合的說(shuō)話人識(shí)別系統(tǒng)，并在說(shuō)話人識(shí)別中進(jìn)行了應(yīng)用。
1 VQ-MAP過(guò)程
　在說(shuō)話人識(shí)別中，可以使用訓(xùn)練集中的發(fā)音數(shù)據(jù)對(duì)UBM進(jìn)行參數(shù)自適應(yīng)來(lái)得到發(fā)音人的模型。高斯混合模型在最大后驗(yàn)概率自適應(yīng)(GMM-MAP)過(guò)程中需要更新3種參數(shù)：權(quán)值、均值向量和協(xié)方差矩陣。VQ-MAP過(guò)程是GMM-MAP的一種特殊形式，它只依照均值向量來(lái)得到新的自適應(yīng)說(shuō)話人模型。依照均值向量為參數(shù)用K均值聚類算法對(duì)UBM進(jìn)行聚類,從而得到一組均值核心矢量：

2 最小二乘支持向量機(jī)[3-4]
    Suykens等人[3]在SVM的優(yōu)化函數(shù)中引入方差項(xiàng),并將SVM中的不等式約束條件改為等式約束,提出了一種以二次等式約束條件為基礎(chǔ)的改進(jìn)型向量機(jī)即最小二乘向量機(jī)(LS-SVM)。這樣LS-SVM的求解問題從標(biāo)準(zhǔn)SVM的二次函數(shù)尋優(yōu)問題轉(zhuǎn)換為線性方程求解問題, 解決了二次尋優(yōu)算法費(fèi)時(shí)且不易用于實(shí)時(shí)數(shù)據(jù)處理的問題，從而大大地簡(jiǎn)化了問題的復(fù)雜性[4]。

    方程的最優(yōu)性條件如下：

3 融合算法
3.1選擇樣本

設(shè)計(jì)1個(gè)SVM，分別標(biāo)記這2個(gè)說(shuō)話人自適應(yīng)參數(shù)集為{+ 1,- 1}類，將每幀測(cè)試語(yǔ)音特征矢量輸入到1個(gè)訓(xùn)練支持向量機(jī)中,對(duì)每幀矢量判別是哪一類,當(dāng)所有的測(cè)試語(yǔ)音特征矢量判別完畢后, 采用投票方法判決,得票最多者就為目標(biāo)說(shuō)話人。
　實(shí)驗(yàn)1：同一語(yǔ)音庫(kù)下,隨著說(shuō)話人人數(shù)的變化,VQ-MAP和LS-SVM融合的說(shuō)話人識(shí)別系統(tǒng)與基于LS-SVM的說(shuō)話人識(shí)別系統(tǒng)中SVM訓(xùn)練時(shí)間進(jìn)行對(duì)比,兩個(gè)系統(tǒng)中LS-SVM均采用徑向基核函數(shù)，取γ=0.125,結(jié)果如圖1所示。

　由圖1可以看出，隨著說(shuō)話人數(shù)越多，所需SVM訓(xùn)練時(shí)間越長(zhǎng)。當(dāng)說(shuō)話人數(shù)為50時(shí)，應(yīng)用VQ-MAP和SVM融合的系統(tǒng)SVM訓(xùn)練時(shí)間僅僅是直接用LS-SVM訓(xùn)練時(shí)間的36.6%。這是因?yàn)橹苯佑肔S-SVM時(shí)，把每個(gè)說(shuō)話人所有幀的特征向量都作為輸入矢量來(lái)訓(xùn)練SVM，而在VQ-MAP和LS-SVM融合方法中，只把VQ-MAP自適應(yīng)更新模型中的K個(gè)向量作為輸入矢量訓(xùn)練SVM，大大減少了運(yùn)算量，因而提高了識(shí)別速度。
實(shí)驗(yàn)2：同一語(yǔ)音庫(kù)下，VQ-MAP和LS-SVM融合的說(shuō)話人識(shí)別系統(tǒng)與基于LS-SVM的說(shuō)話人識(shí)別系統(tǒng)識(shí)別率進(jìn)行對(duì)比，比較結(jié)果如表1所示。

從表1可以看出，隨著測(cè)試時(shí)長(zhǎng)的增加， VQ-MAP和LS-SVM融合方法識(shí)別率不斷提高，且明顯高于LS-SVM方法。這是因?yàn)樵赩Q-MAP算法中，采用了均值矢量通過(guò)UBM進(jìn)行自適應(yīng)來(lái)得到說(shuō)話人模型，在訓(xùn)練語(yǔ)音未覆蓋到的部分就可以用UBM中說(shuō)話人無(wú)關(guān)的特征分布近似,減小訓(xùn)練語(yǔ)音太短帶來(lái)的影響，從而為提高識(shí)別率打下良好的基礎(chǔ)。
本文介紹的VQ MAP和LS-SVM融合說(shuō)話人識(shí)別系統(tǒng)，比直接應(yīng)用LS-SVM訓(xùn)練效率提高了36.6%，且識(shí)別率也高于LS-SVM方法，尤其是在測(cè)試時(shí)長(zhǎng)為8 s時(shí),比傳統(tǒng)的LS-SVM方法識(shí)別率提高了4.2%,為在說(shuō)話人識(shí)別系統(tǒng)中使用多系統(tǒng)融合提供了新的途徑，是一種行之有效的方法。
參考文獻(xiàn)
[1] 趙力.語(yǔ)音信號(hào)處理[M]. 北京：機(jī)械工業(yè)出版社,2003.
[2] HAUTAMAKI V, KINNUNEN T, KARKKAINEN I. Maximum a posteriori adaptation of the centroid Model for Speaker Verification[J]. IEEE Signal Process. Lett.2008,15:162-165.
[3] SUYKENS J K, VANDEWALLE J. Least squares support vector machine classifiers[J].Neural Processing Letter,1999,9(3):293-300.
[4] 但志平，鄭勝. 基于最小二乘向量機(jī)的說(shuō)話人識(shí)別研究[J]. 計(jì)算機(jī)工程與應(yīng)用，2007(7):49-51.
[5] 趙虹,韋麗華.基于支持向量機(jī)的說(shuō)話人識(shí)別研究[J].現(xiàn)代電子技術(shù),2008(6):123-127.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容