一種室內(nèi)混響語音盲分離算法*
摘 要:在信號處理領(lǐng)域,室內(nèi)環(huán)境下的混響語音盲分離一直以來都是一個重點(diǎn)與難點(diǎn),主要是由于混合系統(tǒng)存在的混響和回聲嚴(yán)重影響了語音質(zhì)量,從而降低了算法分離效果。因此,本文提出了一個應(yīng)對算法,由麥克風(fēng)采集到室內(nèi)混響語音混合信號后,對該混合信號進(jìn)行兩階段去混響處理:首先通過設(shè)計(jì)一個逆濾波器來抑制早期混響或增大信號混響能量比,再采用譜減法來消除回聲;然后將處理過的時域卷積混合語音信號通過短時傅里葉變換轉(zhuǎn)化為頻域各個頻點(diǎn)的瞬時混合形式,用IVA算法分離混合語音信號,最終恢復(fù)為時域語音信號。實(shí)驗(yàn)表明,該方法可以有效提高室內(nèi)混響環(huán)境下的語音盲分離效果。
本文引用地址:http://www.biyoush.com/article/202105/425715.htm*基金項(xiàng)目:湖南省自然科學(xué)基金(2018JJ3486)
作者簡介:曾金芳,女,碩導(dǎo),博士,主要研究方向?yàn)槁曇粜盘柼幚?,深度學(xué)習(xí)。
陳達(dá),男;張鈺,女;李友明,男。三人均為碩士研究生。
0 引言
盲源分離(blind source separation, BSS) 是指當(dāng)源信號參數(shù)和信號混合模型都未知時,基于輸入源信號的統(tǒng)計(jì)特性,將源信號從觀測信號分離出來的過程。盲源分離技術(shù)先后應(yīng)用于文本數(shù)據(jù)挖掘、語音信號處理、地球物理信號處理等多個領(lǐng)域[1-3]。
獨(dú)立分量分析[4](independent component analysis,ICA) 算法是解決盲源分離問題的一個常用且高效的算法。然而,在真實(shí)的室內(nèi)環(huán)境中,由于室內(nèi)存在的混響和回聲,接收器接收得到的信號一般都不是線性混合的,而是卷積混合的。因此通常采用頻域ICA 算法進(jìn)行分離。頻域ICA 算法是通過短時傅里葉變換(short-time fourier transform, STFT) 將混合信號由時域的卷積混合轉(zhuǎn)到頻域各個頻點(diǎn)的瞬時混合,再使用ICA 算法進(jìn)行分離。但傳統(tǒng)的頻域ICA 算法通常存在幅度模糊性和排序模糊性問題[5-6],經(jīng)過學(xué)者們的不斷研究,目前已有許多算法被用來解決該問題[7-8],如獨(dú)立向量分析(IVA)算法。
頻域ICA 算法另一個需要注意的是混響強(qiáng)弱問題,處理不好會導(dǎo)致分離性能嚴(yán)重下降。在無噪聲條件下,混響語音的質(zhì)量主要依賴于兩個不同的感知成分:早期混響和回聲。它們分別對應(yīng)兩個物理變量:信號混響能量比和混響時間。受此啟發(fā),我們采用一種單麥克風(fēng)雙級語音去混響算法[9]。在第一階段,通過估計(jì)一個逆濾波器來抑制早期混響或增大信號混響能量比。在第二階段,采用譜減法來減少回聲的影響。實(shí)驗(yàn)表明,該算法在一定程度上抑制了室內(nèi)的混響和回聲,提高了語音的質(zhì)量。
由于混響和回聲的存在,室內(nèi)混響語音盲分離導(dǎo)致算法性能嚴(yán)重下降。因此,通過結(jié)合兩階段去混響算法和IVA 算法,構(gòu)建出一個新的算法模型,來處理真實(shí)室內(nèi)環(huán)境下的語音盲分離問題,即先對室內(nèi)混響語音混合信號進(jìn)行兩階段去混響處理,抑制早期混響和消除回聲,再將目標(biāo)信號轉(zhuǎn)到頻域,用IVA 算法分離語音信號,最終恢復(fù)為時域語音信號。
1 語音卷積混合模型
在真實(shí)的室內(nèi)環(huán)境中,源信號在傳播過程中會存在各種延時和反射等現(xiàn)象,因此接收器接收到的語音信號可以表示為源信號st(i ) 和室內(nèi)脈沖響應(yīng)系數(shù)aki( t) 的卷積[10]:
這里,xki(t ) 是接收器k 在時間t 接收到來自源信號st(i) 的分量, n 是接收器個數(shù), m 是源信號個數(shù)。
aki(t) 模擬室內(nèi)中源信號i 到接收器k 的脈沖響應(yīng), p 是室內(nèi)脈沖響應(yīng)的最大長度。
分幀加窗并STFT,定義x t ki( ) 的第r 幀STFT 變換為Xki(ω,r ):
其中,L 是幀長,N 是幀移。當(dāng)L ≥ p,即幀長大于混響時間,(2)式為:
其中, Aki(ω) 和 Sri(ω, ) 分別是 a t ki( ) 和s t i( ) 的STFT。至此,在室內(nèi)混響環(huán)境下,其時域上的卷積混合便轉(zhuǎn)換成為頻域各個頻點(diǎn)上的瞬時混合。
2 一種室內(nèi)混響語音盲分離算法
2.1 本文算法流程
算法流程圖如圖1 所示。首先,接收一段室內(nèi)混響語音信號,對該混響混合信號采用兩階段去混響算法,濾除信號中存在的混響和回聲,增大信號混響能量比和減小信號混響時間,再使用STFT 變換將信號由時域上的卷積混合轉(zhuǎn)換成為頻域各個頻點(diǎn)上的瞬時混合,采用IVA 算法分離語音信號,最后通過STFT 逆變換恢復(fù)為時域語音信號。
2.2 兩階段去混響
通常在室內(nèi)環(huán)境中,信號在傳播時會產(chǎn)生混響和回聲。因此,一個麥克風(fēng)接收到的信號分為直達(dá)語音和混響成分。直達(dá)語音,即直接到達(dá)麥克風(fēng)的語音。混響成分一般分為早期混響和回聲,如圖2 所示, 室內(nèi)脈沖響應(yīng)的早期部分(t<50 ms) 看起來像一連串脈沖,顯示了房間的早期混響。脈沖響應(yīng)的后面部分(t>50 ms) 看起來更隨機(jī),則是房間的后期混響,也就是回聲。由于脈沖響應(yīng)的兩個部分的不同性質(zhì),本文用一個兩階段去混響算法分兩階段解決這兩種干擾。在第一階段,我們通過估計(jì)一個逆濾波器,以抑制早期混響。第二階段,我們采用譜減法來消除回聲的影響,如圖3 所示。
1)抑制早期混響
在單通道去混響算法的第一階段,我們通過估計(jì)一個逆濾波器來抑制早期混響效應(yīng)或增大信號混響能量比[11]。
假設(shè)
是長度為L 的逆濾波器。則:
其中, z t ( ) 是逆濾波語音。y 是混響語音,采樣頻率是16 kHz。由于處理后語音的線性預(yù)測殘差與逆濾波后混響語音的線性預(yù)測殘差近似,因此有:
其中,yr(t) 是混響語音的線性預(yù)測殘差。
則濾波器方程如下所示:
其中,μ 是指步長學(xué)習(xí)速率。
在采用時域自適應(yīng)濾波器時,由于輸入信號在時域的自相關(guān)矩陣的特征向量變化過大,可能會不完全收斂[12]。因此,我們采用一個頻域塊結(jié)構(gòu)來進(jìn)行優(yōu)化,則可以得到新的逆濾波器公式:
其中,F(xiàn)(m) 和Yr(m) 分別代表的是 f(t) 和y? t r( ) 傅里葉變換(FFT) 的第m 個塊。上標(biāo)? 代表復(fù)共軛。G(n) 是g? 的FFT 在第n 次迭代的值,M 是塊數(shù)。
圖4 顯示了圖2 逆濾波后的室內(nèi)脈沖響應(yīng)波形圖。通過圖2 與圖4 的對比可以看出,圖2 原始脈沖響應(yīng)50 ms 之前的混響成分幅度大、多且雜亂,而圖4 逆濾波室內(nèi)脈沖響應(yīng)波形圖50 ms 之前的早期混響部分在很大程度上被抑制住了。由此可得出,此算法估計(jì)的逆濾波器能在一定程度上抑制室內(nèi)脈沖響應(yīng)的早期混響部分,增大信號混響能量比,提高語音質(zhì)量。
2)消除后期回聲
在算法的第二階段,我們采用譜減法來消除回聲的影響。室內(nèi)脈沖響應(yīng)函數(shù)的后期混響破壞了語音頻譜,降低了語音清晰度和質(zhì)量。同樣,經(jīng)過去混響后的脈沖響應(yīng)也可以分解成兩部分:早期脈沖和晚期脈沖。通過對后期脈沖進(jìn)行估計(jì)并予以減去,可以提高語音質(zhì)量[13]。假設(shè)后期脈沖部分的功率譜是逆濾波后語音z(t)功率譜經(jīng)過各種變換得來的,那么可以得到:
其中,S k i l( ; ) 2 是逆濾波后語音短時功率譜,Si(kz) ; 2是后期脈沖部分的短時功率譜。k 是頻率點(diǎn),i 是時間幀。ω(i)是平滑函數(shù)。移位延遲ρ 表示后脈沖分量的相對長度,比例因子γ 指定逆濾波后的后脈沖分量的相對強(qiáng)度。
為了證明使用譜減法是正確的,我們現(xiàn)在證明早期脈沖和后期脈沖分量是近似不相關(guān)的。如果我們認(rèn)為純凈語音s t ( ) 和逆濾波后脈沖h t e( ) 是獨(dú)立的隨機(jī)過程,那么就有:
其中,τ 1 和τ 2 在各自的集成中涵蓋不同的范圍。由于語音信號存在長時不相關(guān)性,當(dāng)τ τ 1 2 ? 的時間差距比較大時,E[s(t ?τ )s(t ?τ )] ≈ 0 1 2 。因此,上式的相關(guān)性非常小,從而證明了早期混響和后期混響部分互不相關(guān)。
原語音的功率譜就等于逆濾波后的語音信號的功率譜減去后脈沖信號的功率譜。其相應(yīng)的表達(dá)式如下所示。
其中,原始語音信號功率譜, ε 是地板系數(shù)。
2.3 獨(dú)立向量分析
由于觀測信號通過STFT 轉(zhuǎn)化為頻域的線性瞬時混合,因此可以用ICA 算法來分離混合信號。為了避免排序模糊性問題,本文選擇IVA算法[14] 來分離得到源信號。
信號間的 KL 散度可以表示為:
又因?yàn)閅 (ω) =W(ω)X(ω) ,則上式中微分熵為:
式(16) 等號右邊第2 項(xiàng)可以表示為:
因此,可以得到目標(biāo)函數(shù)最終形式:
其中, wi,k(ω)是分離矩陣W(ω)的第i行,G′(?)是G(?)的1 階導(dǎo)數(shù), k 指迭代次數(shù), ηk 是步長參數(shù)。
3 仿真實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)驗(yàn)設(shè)置
圖5 描述了實(shí)驗(yàn)中的房間布局,包括房間大小、聲源和麥克風(fēng)位置等。實(shí)驗(yàn)選取兩組不同的數(shù)據(jù)集中時長為3 s 的純凈語音,每組語音數(shù)據(jù)均為英文男聲和英文女聲的組合,采樣頻率是16 kHz。由Roomsim 算法生成混響時間為200 ms 的室內(nèi)混響沖擊響應(yīng),如圖6 所示。
其中,a11 是模擬房間中第1 個信源到第1 個麥克風(fēng)的沖擊響應(yīng),a12 是模擬房間中第1 個信源到第2 個麥克風(fēng)的沖擊響應(yīng),a21 是模擬房間中第2 個信源到第1 個麥克風(fēng)的沖擊響應(yīng),a22 是模擬房間中第2 個信源到第2個麥克風(fēng)的沖擊響應(yīng)。
3.2 分離性能指標(biāo)
本文采用評價盲源分離算法性能的工具箱BSS_EVAL[15] 來公正合理地評價算法的分離效果。采用信號干擾比(SIR) 和信號畸變比(SDR) 對算法的分離性能進(jìn)行評估。假設(shè)每個分離出的信號可分解為目標(biāo)信號starget(n)、干擾信號e n int erf ( ) 和算法帶來的虛假信號eartif(n)三部分。
則分離信號的SIR 和SDR 分別定義為:
3.3 仿真結(jié)果
對兩組信號采用本文提出的基于去混響的室內(nèi)混響語音盲分離算法進(jìn)行分離,并輸出波形。兩組語音的源信號、混合信號以及分離出來的信號均如圖7 所示。為了美觀,本文只列出了一組室內(nèi)混響語音盲分離的波形圖。源信號如圖7 所示。將源信號與通過Roomsim 生成的混響沖擊響應(yīng)卷積得到混合信號,如圖8 所示。再將混合信號經(jīng)過兩階段去混響處理,得到語音去混響波形圖,如圖9 所示。最后通過本文提出的算法得到分離信號波形圖,如圖10 所示。
通過圖8 與圖9 之間對比可以看出,經(jīng)過去混響算法后,混合語音細(xì)節(jié)變得更加清晰,且明顯消除了室內(nèi)混響所產(chǎn)生的回聲。因此,兩階段去混響算法效果十分明顯。
通過將圖10 和圖7 進(jìn)行對比可以看出,該算法能夠?qū)⒃葱盘栍行Х蛛x出來。但是僅僅通過觀察,并不能準(zhǔn)確評價算法的分離效果。因此本文引入盲源分離工具箱來評估算法的分離效果,并與未進(jìn)行兩階段去混響的原頻域分離算法進(jìn)行對比分析。通過實(shí)驗(yàn)仿真,得到兩組數(shù)據(jù)的兩種算法的SIR 和SDR 性能參數(shù),如圖11 和圖12。從圖11 中可以看出,改進(jìn)算法的SIR 相對于原算法最高獲得了2.13 dB 的提升,SDR 最高提升了1.21 dB。
4 結(jié)語
針對室內(nèi)混響環(huán)境下卷積混合語音信號存在混響和回聲而導(dǎo)致頻域盲分離精度低的問題,提出了一種新的室內(nèi)混響語音盲分離方法,可以有效提高室內(nèi)混響語音盲分離的效果。
參考文獻(xiàn):
[1] LEGLAIVE S, BADEAU R,RICHARD G.Separating Time-Frequency Sources from TimeDomain Convolutive Mixtures Using Non-negative Matrix Factorization[C]. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Oct 2017, New Paltz, New York, United States.
[2] 張華,馮大政,龐繼勇.卷積混迭語音信號的聯(lián)合塊對角化盲分離方法[J].聲學(xué)學(xué)報(bào)(中文版),2009,34(02):167-174.
[3] 季策,姜雨田.基于方向幅值比的欠定盲源分離算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,40(07):920-924.
[4] 陳秀敏,李珊君,董興建.Fast-ICA算法非線性函數(shù)性能的仿真分析[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(06):277-282+333.
[5] 李揚(yáng),張偉濤,樓順天.基于聯(lián)合對角化的聲信號深度卷積混合盲分離方法[J].電子與信息學(xué)報(bào),2019,41(12):2951-2956.
[6] 張?zhí)祢U,張華偉,劉董華,李群.基于區(qū)域增長校正的頻域盲源分離排序算法[J].電子與信息學(xué)報(bào),2019,41(03):580-587.
[7] 冷艷宏,鄭成詩,李曉東.功率比相關(guān)子帶劃分快速獨(dú)立向量分析[J].信號處理,2019,35(08):1314-1323.
[8] 朱堅(jiān)堅(jiān),王惠剛,李虎雄.聯(lián)合頻域盲語音分離排序算法[J].計(jì)算機(jī)應(yīng)用,2008(06):1552-1554+1562.
[9] WU M, WANG D. A two-stage algorithm for one-microphone reverberant speech enhancement[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3):774-784.
[10] 顧凡,王惠剛,李虎雄.一種強(qiáng)混響環(huán)境下的盲語音分離算法[J].信號處理,2011,27(04):534-540.
[11] GILLESPIE B W, MALVAR H S, FLORENCIO D, et al.Speech dereverberation via maximum-kurtosis subband adaptive filtering[C]. international conference on acoustics, speech, and signal processing, 2001: 3701-3704.
[12] HAYKIN S.Adaptive Filter Theory[M].4th ed. Upper Saddle River, N.J.: Prentice-Hall, 2002.
[13] NAKATANI T, MIYOSHI M.Blind dereverberation of single channel speech signal based on harmonic structure[C]. international conference on acoustics, speech, and signal processing, 2003: 92-95.
[14] KIM T,ATTIAS H T,LEE S Y,et al.Blind source separation exploiting higher-order frequency dependencies[J].IEEE Transactions on Audio Speech &Language Processing,2006,15(1):70–79.
[15] 張?zhí)祢U,徐昕,吳旺軍,等.多反復(fù)結(jié)構(gòu)模型的精確音樂分離方法[J].聲學(xué)學(xué)報(bào), 2016(1): 135-142.
(本文來源于《電子產(chǎn)品世界》雜志設(shè)2021年4月期)
評論