文獻標識碼: A
文章編號: 0258-7998(2015)06-0147-03
0 引言
人們提出了大量的評價方法來預測在背景噪聲存在條件下的語音可懂度。在這些方法中,SII(Speech Intelligence Index)是現今最廣泛使用的語音可懂度指數的方法。SII的評價是基于語音的可懂度取決于譜信息比例的思想,譜信息比例是可被聽者聽到的并通過頻譜分割成20個頻帶(同樣適用于可懂度),并估計每個頻帶的信號噪聲比(SNR)加權平均值。每一個頻帶中的信噪比由頻帶重要性函數加權,該函數根據語料的不同而不同[1]。SII方法能夠成功預測出線性濾波和加性噪聲對語音可懂度的影響[2,3]。然而,還是有許多局限的。其中一個局限是,SII不能應用于語音嵌入在波動掩蔽的情況下。一些人已經試圖拓展SII方法來評估在波動掩蔽條件下的語音可懂度。例如,Rhebergen提出將語音和掩蔽信號分割成短幀(9~20 ms),估計每一幀中的瞬時AI(Articulation Index)值以及平均所有幀計算后的AI值來產生單一的AI矩陣。拓展后的短期AI方法被認為在估計嵌入在人工掩蔽信號(比如周期干擾噪聲)和類語音掩蔽信號中的句子時能夠比傳統的AI方法更好地預測語音可懂度,但是,后者在預測方面是不夠準確的[4]。
MA J、HU Y和LOIZOU P C等學者提出用清晰語音作為權值來代替SII算法中的ANSI經驗權值,可懂度有所提高[5]。所有這些改進都是針對于頻域進行的,并沒有考慮在時域對信號進行選擇。然而不同的語音段對可懂度的貢獻有所不同,如濁音段比清音段或無聲段對可懂度的影響要大,這一點也和平時的經驗相一致。比如在聽一句話時,有時雖然不能完全聽清晰所有的詞,但只要能聽清楚關鍵的詞,就能通過聯想猜出整個句子的含義。而如果沒有聽清楚關鍵詞,即使其他部分能夠聽清楚,也無法猜出整個句子的含義。研究表明濁音段,尤其是音節的起始部分對可懂度的影響最大[6],根據這一思想,本研究提出在時域選取語音的起始段,然后再對選出的語音段進行SII分析。
1 實驗方法及數據
可懂度評價算法使用的是HU Y和LOIZOU P C通過8種不同的噪聲抑制算法處理的語音信號[7],下面簡要介紹這些語料及增強處理算法。
1.1 語料和主觀評價
IEEE的句子和輔音在/aCa/格式中被用于測試材料。輔音測試包含16個記錄在/aCa/目錄中的輔音,其中C=/p,t,k,b,d,g,m,n,dh,l,f,v,s,z,sh,dj/。女性講話者產生的全部輔音和男性講話者產生的所有句子,句子和輔音原始采樣為25 kHz,下采樣到8 kHz。從LOIZOU P C的書中可以得到這些記錄。掩蔽被人工加到了語音材料中。掩蔽信號來自于AURORA數據庫[8],并且包括了不同地方的真實錄音:餐廳、汽車、街道和火車。掩蔽是添加在信噪比是0和5 dB的語音信號中的。
1.2 去噪算法
8種不同的去噪算法用來處理受到噪聲干擾的句子,其中包括:廣義子空間的算法、以感知為基礎的子空間算法、最小均方誤差對數算法、關于語音存在的不確定性的最小均方誤差對數算法、基于降低延遲卷積譜減法算法、多頻帶譜減法、基于小波閾值多窗口譜的維納濾波算法以及傳統的維納濾波算法。除了關于語音存在的不確定性的最小均方誤差對數算法,其他所有的算法都是基于自身的實現。這些算法實現所使用的參數與公布的是相同的。當前測試研究的所有噪聲算法的MATLAB實現也由LOIZOU P C完成了。
1.3 實驗流程
總共有40個當地的美語講話者被招募用于句子可懂度的測試,這40個聽者被分成4個小組(每個噪聲型為一組),每個小組有10名聽者。每位受試者共參加了19項聽力條件(=2個信噪比等級×8個算法+2個帶噪參考+1個安靜)。2個IEEE的句子列表(每個列表有10個句子)被用于每一個條件中。句子列表都是不重復的。另有10名聽者加入輔音識別任務。被試者按照隨機順序每個輔音重復6次。處理后的語音文件(句子/輔音)以及清晰和帶噪語音文件以單耳的形式呈現給聽者。
HU Y和LOIZOU P C研究的可懂度產生了總共72種帶噪環境,其中包括噪聲干擾(未處理)環境[9]。這72種環境包括了8種不同噪聲抑制算法在2種信噪比等級(0和5 dB)在4種類型的真實環境(餐廳、汽車、街道和火車)中引起的失真。在這72種條件下得到的可懂度得分在當前的研究中被用于評估大量之前的和新提出的客觀評價的可預測功率。
2 語音起始段檢測方法
語音信號隨時間變化的頻譜特性可以用語譜圖直觀地表示。語譜圖的縱軸對應于頻率,橫軸對應于時間,而圖像的黑白度對應于信號的能量。所以,聲道的諧振頻率在圖上就表示成為黑帶,濁音部分則以出現條紋圖形為其特征,這是因為此時的時域波形有周期性,而在濁音的時間間隔內圖形顯得很致密[10]。圖1為“A gold ring will please most any girl”語音的語譜圖。
如果有必要,語音信號首先要重新采樣。重新采樣出來的信號要經過一個等響度濾波的處理,之后要使用一個二階的butterworth濾波器[6]的信道進行濾波得出信道信號。
圖2中上圖是包絡圖,下圖是起始段速率圖。包絡圖中的包絡是通過對信道信號的全波整流得到的。起始段速率是用來計算全頻帶信道的,而它是由包絡速率的半波整流得到的,其中,包絡速率是計算包絡的第一次差值。圖2中是測試語音的一部分,上圖表現的是語音句子的一部分(A gold ring)包絡,下圖給出的是對應的起始段。豎線是人工標記出來的音節邊界。
每一個起始段都有3個重要的位置,即起始段開始(onset start)、起始段峰(onset peak)、起始段結束(onset end),如圖2(b)所示。起始段開始被定義為起始段速率首次大于0時的采樣指數,它對應著原包絡從谷值到開始的轉折點,并被認為是候選音節邊界位置。相反,起始段結束定義為起始段速率最終跌回到0的采樣指數,它對應于原包絡的峰值且是一個候選音節核位置。最后,起始段峰是起始段速率達到其最大值的采樣指數。
3 基于語音起始段檢測語音可懂度客觀評價算法
時域分段信噪比(SNRseg)算法[11]在Hansen和Pellom的文章中提到,且計算公式如下:
4 實驗結果
有兩個數被應用于在預測語音可懂度中估計上述客觀評價的表現[9]。第一個數是Pearson相關系數r,第二個是誤差的標準差估計值,計算公式為其中σd是給出的條件的語音識別得分的標準差,σe是計算誤差的標準差。較小的σe值表明客觀評價在預測語音可懂度方面是較好的。
對正常聽力的試聽者在72種不同噪聲環境下得到的平均可懂度得分進行相關分析,這些分析是客觀評價得到的相關平均值。包括噪聲抑制語音的這些條件最初受到了4種不同的掩蔽信號(餐廳、汽車、街道和火車)的干擾。計算的相關系數(預測誤差)位于表1中。
從表1中能夠看出,對于分段信噪比(SNRseg)[11],輔音和句子的Pearson系數分別為0.40和0.46;而對于使用了語音起始段檢測方法的分段信噪比(SNRseg_onset),輔音和句子的Pearson系數分別為0.51和0.52。接下來對于4種的不同掩蔽來觀察其相關系數,位于表2中。
表2給出的分別是分段信噪比(SNRseg)和語音起始段檢測分段信噪比(SNRseg_onset)的4種不同掩蔽信號(餐廳、汽車、街道和火車)的相關系數。從表2中能夠看出,對于輔音aCa,語音起始段分段信噪比算法(SNRseg_onset)相對于分段信噪比算法(SNRseg)的Pearson相關系數都有所提高。而對于句子Sen,大體都是所提高的,只有在火車噪聲掩蔽下,相關系數是有所下降的。總的來說,由表1和表2中可以觀察到,語音起始段檢測分段信噪比算法(SNRseg_onset)的相關系數確實是提高了很多的。這就說明語音起始段檢測方法用于SNR評價算法是有較好的表現的,也充分說明語音起始段(speech onset)對于SNR評價算法確實是有正面的影響的。
5 結論
當前的研究是在真實噪聲條件下評價就預測語音可懂度而言傳統的客觀評價算法(SNRseg)和新的客觀評價算法(SNRseg_onset)的表現。這些客觀評價算法在總共72個噪聲條件下進行測試,這些噪聲條件包括在真實世界的噪聲類型(汽車、餐廳、火車和街道噪聲)干擾下的處理過的句子和無意義的音節。傳統的SNR評價算法的表現是不夠好的(輔音r=0.40,句子r=0.46),而當結合了本文提出的語音起始段檢測算法的SNR,即SNRseg_onset評價算法,其在預測語音可懂度方面有較好的表現(輔音r=0.51,句子r=0.52)。同時也說明語音起始段(speech onset)對于SNR評價算法確實是有好的影響的,表明結合語音起始段(speech onset)檢測算法能夠提高客觀評價算法的性能。
參考文獻
[1] HALL S M,ISAACSON J J,BURHANS C G,et al.New editions of ANSI standards for warnings[C].9th Annual IEEE Product Safety Engineering Society′s Symposium on Product Compliance Engineering,ISPCE 2012,Portland,2012:1-4.
[2] LOIZOU P C,Ma Jianfen.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].Journal of the Acoustical Society of America,2011,130(2):986-995.
[3] KRYTER K D.(1962b).Validation of the articulation index[J].Journal of the Acoustical Society of America,1962(34):1698-1706.
[4] RHEBERGEN K S,VERSFELD N J.A speech intelligibility index-based approach to predict the speech reception threshold for sentences influctuating noise for normalhearing listeners[J].Journal of the Acoustical Society of America,2005(117):2181-2192.
[5] MA J,HU Y,LOIZOU P C.Objective measures for pre dicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America,2009,125(5):3387-3405.
[6] VILLING R,TIMONEY J,WARD T,et al.Automatic blind syllable segmentation for continuous speech[C].Irish Signals and Systems Conference,Belfast,2004.
[7] HU Y,LOIZOU P C.A comparative intelligibility study of single-microphone noise reduction algorithms[J].Journal of the Acoustical Society of America,2007,122(3):1777-1786.
[8] DO C T,PASTOR D,GOALIC A.A novel framework for noise robust ASR using cochlear implant-like spectrally reduced speech[J].Speech Communication,2012,54(1):119-133.
[9] HU Y,LOIZOU P C.Evaluation of objective quality measures for speech enhancement[J].IEEE Trans.Audio,Speech,Lang.Process,2008(16):229-238.
[10] 張雪英.數字語音處理及MATLAB仿真[M].北京:電子工業出版社,2010:19.
[11] KOBAYASHI Y,KONDO K.Speech intelligibility estimation using support vector regression and critical band segmental SNR in noisy condition[J].IEEJ Transactions on Electronics,Information and Systems,2013,133(8):1556-1564.