《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 你的耳朵真的靈敏嗎?Goodfellow等人提出不可察覺的魯棒語(yǔ)音對(duì)抗樣本

你的耳朵真的靈敏嗎?Goodfellow等人提出不可察覺的魯棒語(yǔ)音對(duì)抗樣本

2019-03-30

圖像領(lǐng)域的對(duì)抗樣本對(duì)人類來(lái)說(shuō)難以區(qū)分,但語(yǔ)音識(shí)別領(lǐng)域的對(duì)抗樣本卻往往是可以察覺的,而且聽起來(lái)非常明顯。在本文中,Ian Goodfellow 等人提出了用于自動(dòng)語(yǔ)音識(shí)別體統(tǒng)的針對(duì)性對(duì)抗樣本,這些樣本不易被人類察覺,而且非常魯棒。

微信圖片_20190330191325.jpg



對(duì)抗樣本是由攻擊方專門設(shè)計(jì)的輸入,其目的是使機(jī)器學(xué)習(xí)算法產(chǎn)生錯(cuò)誤分類。最初的對(duì)抗樣本研究主要集中于圖像分類領(lǐng)域。為了將神經(jīng)網(wǎng)絡(luò)中一般對(duì)抗樣本的性質(zhì)與僅適用于圖像的對(duì)抗樣本的性質(zhì)區(qū)分開來(lái),研究不同領(lǐng)域的對(duì)抗樣本非常重要。


實(shí)際上,從強(qiáng)化學(xué)習(xí)到閱讀理解再到語(yǔ)音識(shí)別領(lǐng)域都存在對(duì)抗樣本。本文主要研究的是語(yǔ)音識(shí)別領(lǐng)域的對(duì)抗樣本,表明任何給定的源音頻樣本都可能受到輕微擾動(dòng),因此自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)會(huì)把音頻轉(zhuǎn)錄為任何不同的目標(biāo)句子。


到目前為止,ASR 系統(tǒng)的對(duì)抗樣本和圖像領(lǐng)域的對(duì)抗樣本主要有兩個(gè)不同之處。


首先,圖像領(lǐng)域的對(duì)抗樣本對(duì)人類來(lái)說(shuō)難以區(qū)分:在不改變 8 位亮度表征的情況下生成對(duì)抗樣本是可能的。相反,ASR 系統(tǒng)的對(duì)抗樣本通常是可以察覺的。雖然引入的擾動(dòng)幅度通常很小,但聽起來(lái)很明顯,附加擾動(dòng)是存在的。


其次,圖像領(lǐng)域的對(duì)抗樣本主要在物理世界發(fā)揮作用(例如在給它們拍照時(shí))。相比之下,ASR 系統(tǒng)的對(duì)抗樣本還不能在這種由揚(yáng)聲器播放并由麥克風(fēng)錄制的無(wú)線環(huán)境中發(fā)揮作用。


在本文中,研究人員改善了 ASR 系統(tǒng)中對(duì)抗樣本的構(gòu)造,開發(fā)了不可察覺的對(duì)抗樣本,其能力可以媲美圖像類對(duì)抗樣本,朝著穩(wěn)健的對(duì)抗樣本邁出了一步。


為了生成不可察覺的對(duì)抗樣本,研究人員沒有選擇對(duì)抗樣本研究中廣泛使用的常用 l_p 距離度量。相反,他們使用了聽覺掩碼(auditory masking)的心理聲學(xué)原理,并且僅在人類聽不到的音頻區(qū)域添加了對(duì)抗擾動(dòng),即使這種擾動(dòng)就絕對(duì)能量而言并不是「安靜的」。


對(duì)語(yǔ)音識(shí)別領(lǐng)域的對(duì)抗樣本性質(zhì)進(jìn)一步調(diào)查后發(fā)現(xiàn),其性質(zhì)似乎與圖像領(lǐng)域?qū)箻颖镜男再|(zhì)不同。研究人員調(diào)查了攻擊方構(gòu)建物理世界對(duì)抗樣本的能力。即使考慮了物理世界引入的扭曲,這些輸入在分類時(shí)仍然是對(duì)抗的。通過(guò)設(shè)計(jì)經(jīng)過(guò)隨機(jī)空間環(huán)境模擬器處理后仍然具有對(duì)抗性的音頻,研究人員朝著開發(fā)能夠無(wú)線播放的音頻邁近了一步。


最后,研究人員證明,其對(duì)抗能夠攻擊當(dāng)前最先進(jìn)的現(xiàn)代 Lingvo ASR 系統(tǒng)。


論文:Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition


微信圖片_20190330191342.jpg


論文地址:https://arxiv.org/abs/1903.10346


對(duì)抗樣本是由攻擊方設(shè)計(jì)的機(jī)器學(xué)習(xí)模型輸入,目的是導(dǎo)致錯(cuò)誤輸出。到目前為止,對(duì)抗樣本在圖像領(lǐng)域中的研究最為廣泛。在圖像領(lǐng)域中,對(duì)抗樣本可以通過(guò)圖像的細(xì)微修改來(lái)構(gòu)建,進(jìn)而導(dǎo)致誤分類,并且對(duì)抗樣本在現(xiàn)實(shí)世界很實(shí)用。


相比之下,目前應(yīng)用于語(yǔ)音識(shí)別系統(tǒng)的針對(duì)性對(duì)抗樣本不具有這兩種特性:人類很容易識(shí)別對(duì)抗擾動(dòng),而且這些擾動(dòng)在無(wú)線播放下就會(huì)失去作用。本論文在這兩方面均取得了進(jìn)展。


其一,研究人員利用聽覺掩碼(auditory masking)的心理聲學(xué)原理開發(fā)出了不可察覺的音頻對(duì)抗樣本(已經(jīng)人類研究證實(shí)),同時(shí)保持任意完整句 100% 的針對(duì)性成功率。其二,通過(guò)構(gòu)建在應(yīng)用真實(shí)模擬環(huán)境失真后依然有效的擾動(dòng),研究人員在物理世界無(wú)線音頻對(duì)抗樣本方面取得進(jìn)展。


如何生成不可察覺的對(duì)抗樣本


在圖像領(lǐng)域,將圖像和最近的分類樣本之間的 l_p 失真最小化會(huì)生成肉眼無(wú)法區(qū)分的圖像,但在語(yǔ)音領(lǐng)域并非如此。因此,本研究脫離了 l_p 失真度量,轉(zhuǎn)而依賴于在聲音空間中捕獲人類音頻感知的廣泛工作。


如何生成魯棒的對(duì)抗樣本


為了提高對(duì)抗樣本在無(wú)線播放時(shí)的魯棒性,研究人員用一個(gè)聲學(xué)空間模擬器來(lái)創(chuàng)建模擬無(wú)線播放的人工語(yǔ)音(帶有混響的語(yǔ)音)。他們的目標(biāo)是使用混響(而不是干凈的音頻)擾動(dòng)語(yǔ)音欺騙 ASR 系統(tǒng)。同時(shí),對(duì)抗擾動(dòng)δ應(yīng)該比較小,以使其不被人聽見。


如何生成不可察覺的魯棒樣本


結(jié)合先前已開發(fā)的兩項(xiàng)技術(shù),研究人員現(xiàn)在提出了一種生成不可察覺和魯棒的對(duì)抗樣本的方法。將損失降至最低可以實(shí)現(xiàn)這一點(diǎn)。在微信圖片_20190330191407.png中,交叉熵?fù)p失函數(shù) 微信圖片_20190330191443.png又是用于 Lingvo 的損失,不可察覺性損失微信圖片_20190330191459.png與等式 5 中定義的一樣。當(dāng)語(yǔ)音在隨機(jī)擾動(dòng)后播放時(shí),研究人員需要欺騙 ASR 系統(tǒng),所以交叉熵?fù)p失微信圖片_20190330192219.png迫使轉(zhuǎn)換的對(duì)抗樣本 t(x + δ) 轉(zhuǎn)錄成 y(與之前再次一樣)。


評(píng)估

微信圖片_20190330192547.jpg


圖 1:人們對(duì)不可察覺性的研究結(jié)果。圖中的 baseline 表示由 Carlini & Wagner(2018 年)制作的對(duì)抗樣本,「ours」表示根據(jù)章節(jié) 4 中的算法生成的不可察覺對(duì)抗樣本。

微信圖片_20190330192603.jpg


表 1:1000 個(gè) clean 和(不可察覺)對(duì)抗性擾動(dòng)樣本的句子級(jí)準(zhǔn)確率和詞錯(cuò)率(WER),并且在沒有無(wú)線模擬的情況下輸入 Lingvo 模型。在「Clean」中,真實(shí)值為初始轉(zhuǎn)錄。在「Adversarial」中,ground truth 為針對(duì)性轉(zhuǎn)錄。

微信圖片_20190330192627.jpg


表 2:100 個(gè) clean 和對(duì)抗性擾動(dòng)樣本的句子級(jí)準(zhǔn)確率和 WER,并且在無(wú)線模擬的情況下輸入 Lingvo 模型。「clean」輸入的真實(shí)值為初始轉(zhuǎn)錄,而對(duì)抗性輸入的真實(shí)值為針對(duì)性轉(zhuǎn)錄。擾動(dòng)以為界。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 黄网站免费观看| 毛片免费vip会员在线看| 韩国资源视频一区二区三区| 边吃奶边扎下很爽视频| 美女视频黄频a免费大全视频| 中文字幕无码精品亚洲资源网久久| 中文字幕免费在线视频| 一级毛片免费的| 91精品国产免费| 黄页网址大全免费观看22| 美女尿口免费影视app| 波多野结衣无内裤护士| 日韩精品成人一区二区三区| 成年人在线免费| 国产视频手机在线| 国产寡妇树林野战在线播放| 免费无遮挡无码永久在线观看视频 | 中文字幕第7页| 777成影片免费观看| 色釉釉www网址| 欧美精品偷自拍另类在线观看| 日本熟妇色熟妇在线视频播放| 天天在线综合网| 国产又污又爽又色的网站| 人妻av一区二区三区精品| 久久国产精品2020盗摄| 99久久人人爽亚洲精品美女 | 97精品国产一区二区三区| 蝌蚪蚪窝视频在线视频手机| 欧美重口绿帽video| 成年女人毛片免费播放人| 国产精品WWW夜色视频| 免费无遮挡无码视频在线观看| 久久精品aⅴ无码中文字字幕重口 久久精品a亚洲国产v高清不卡 | 免费欧洲毛片**老妇女| 久久综合国产乱子伦精品免费| www.youjizz.com国产| 韩国电影禁止的爱善良的小子hd| 毛茸茸性XXXX毛茸茸毛茸茸| 成人欧美一区二区三区在线观看| 国产欧美精品一区二区三区|