欧美日韩在线视频,欧美两根一起进3p做受视频,欧美巨大另类极品VIDEOSBEST

深度 | L2正則化和對(duì)抗魯棒性的關(guān)系

日期： 2018-08-07

關(guān)鍵詞： 對(duì)抗樣本機(jī)器學(xué)習(xí)

雖然近年來(lái)對(duì)抗樣本已經(jīng)引起了廣泛關(guān)注，并且它對(duì)機(jī)器學(xué)習(xí)的理論和實(shí)踐來(lái)說(shuō)都有很大意義，但迄今為止仍有很多不明之處。為此，來(lái)自倫敦大學(xué)學(xué)院（UCL）的醫(yī)學(xué)與生命科學(xué)跨學(xué)科研究中心（CoMPLEX）的Thomas Tanay、Lewis D Griffin寫(xiě)下了本文，旨在提供一個(gè)關(guān)于對(duì)抗樣本線性問(wèn)題的清晰、直觀概覽。他們分析了 L2 正則化對(duì)對(duì)抗魯棒性的影響，以及對(duì)抗魯棒性和經(jīng)驗(yàn)風(fēng)險(xiǎn)之間的權(quán)衡，并將結(jié)論擴(kuò)展到神經(jīng)網(wǎng)絡(luò)，希望為后續(xù)工作打下堅(jiān)實(shí)的基礎(chǔ)。文中使用了簡(jiǎn)單而典型的例子，在原網(wǎng)頁(yè)上包含大量交互可視化示例，對(duì)加強(qiáng)直觀理解很有幫助。

微信圖片_20180807195449.jpg

微信圖片_20180807195518.jpg

兩個(gè)高維聚類由一個(gè)超平面分離，考慮超平面和圖中水平線之間的夾角，在線性分類中，這個(gè)夾角取決于 L2 正則化的程度，你知道為什么嗎？上圖：L2 正則化程度較小；下圖：L2 正則化程度較大。

深度學(xué)習(xí)網(wǎng)絡(luò)已被證實(shí)容易受到對(duì)抗樣本攻擊：小的圖像干擾能夠大幅改變目前測(cè)試過(guò)的所有模型的分類 [1, 2]。例如，以下預(yù)測(cè)就是由為識(shí)別名人而訓(xùn)練的當(dāng)前最佳網(wǎng)絡(luò)做出的 [3]：

微信圖片_20180807195555.jpg

該結(jié)果令人困惑有兩個(gè)原因。第一，它挑戰(zhàn)了一個(gè)普遍的觀點(diǎn)，即對(duì)新數(shù)據(jù)的良好泛化和對(duì)小干擾的魯棒性是并行不悖的。第二，它對(duì)真實(shí)世界中的應(yīng)用構(gòu)成了潛在威脅 [4, 5, 6]。例如，MIT 的研究者們最近構(gòu)建了在廣泛的角度和視點(diǎn)分布下被錯(cuò)誤分類的 3D 對(duì)象 [7]。理解這種現(xiàn)象并提高深度網(wǎng)絡(luò)的魯棒性由此成為一個(gè)重要的研究目標(biāo)。

目前已有幾種方法投入研究。相關(guān)論文提供了關(guān)于此現(xiàn)象的詳細(xì)描述 [8, 9] 和理論分析 [10, 11, 12]。研究者已經(jīng)嘗試構(gòu)建更加魯棒的架構(gòu) [13, 14, 15, 16] 或在評(píng)估中檢測(cè)對(duì)抗樣本 [17, 18, 19, 20]。對(duì)抗訓(xùn)練已經(jīng)作為一種懲罰對(duì)抗方向的正則化新技術(shù)被引入 [2, 5, 21, 22]。然而不幸的是，這一問(wèn)題還遠(yuǎn)遠(yuǎn)沒(méi)有解決 [23, 24]。面對(duì)這一難題，我們提出從最基本的問(wèn)題入手：先克服線性分類困難，然后再逐步解決更復(fù)雜的問(wèn)題。

玩具問(wèn)題

在線性分類中，對(duì)抗干擾通常被理解為高維點(diǎn)積的一個(gè)屬性。一個(gè)普遍的觀點(diǎn)是：「對(duì)于高維問(wèn)題，我們可以對(duì)輸入進(jìn)行很多無(wú)窮小的改變，這些改變加起來(lái)就是對(duì)輸出的一個(gè)大改變。」[2] 我們對(duì)這種觀點(diǎn)存疑，并認(rèn)為當(dāng)分類邊界靠近數(shù)據(jù)流形，即獨(dú)立于圖像空間維度時(shí)，存在對(duì)抗樣本。

設(shè)置

讓我們從一個(gè)最簡(jiǎn)單的玩具問(wèn)題開(kāi)始：一個(gè)二維圖像空間，其中每個(gè)圖像是 a 和 b 的函數(shù)。

微信圖片_20180807195617.jpg

在這個(gè)簡(jiǎn)單的圖像空間中，我們定義了兩類圖像……

微信圖片_20180807195718.jpg

···它們可以被無(wú)限個(gè)線性分類器分開(kāi)，例如分類器 L_θ。

微信圖片_20180807195739.jpg

由此產(chǎn)生第一個(gè)問(wèn)題：如果所有的線性分類器 L_θ 都能將 I 類和 J 類很好地分離，那它們對(duì)抗圖像干擾的魯棒性是否相同？

投影圖像和鏡像圖像：

考慮 I 類中的圖像 x。在相反類中與 x 最接近的圖像是 x 在 L_θ 上的投影圖像 x_p：

微信圖片_20180807200322.jpg

當(dāng) x 和 x_p 非常接近時(shí)，我們稱 x_p 是 x 的對(duì)抗樣本。盡管 x_p 被歸為低置信度（它位于邊界上），但高置信度對(duì)抗樣本可能更引人關(guān)注 [24]。接下來(lái)，我們將通過(guò) L_θ 重點(diǎn)介紹 x 的鏡像圖像 x_m：

微信圖片_20180807200436.jpg

通過(guò)構(gòu)造鏡像圖像，x 和 x_m 到邊界的距離相同，并且被分為相同的置信度水平。

θ函數(shù)的鏡像圖像

回到玩具問(wèn)題，現(xiàn)在我們可以繪制圖像 x 及其鏡像 x_m 作為 θ 的函數(shù)。

微信圖片_20180807200453.jpg

從圖中可以發(fā)現(xiàn)，x 和 x_m 之間的距離取決于角度 θ。這兩個(gè)邊緣案例非常有趣。

微信圖片_20180807201522.jpg

由此產(chǎn)生第二個(gè)問(wèn)題：如果在 L_θ 嚴(yán)重傾斜時(shí)存在對(duì)抗樣本，那么實(shí)際上是什么使 L_θ 傾斜？

過(guò)擬合與 L2 正則化

本文的假設(shè)是，由標(biāo)準(zhǔn)線性學(xué)習(xí)算法（如支持向量機(jī)（SVM）或 logistic 回歸模型）定義的分類邊界通過(guò)過(guò)擬合訓(xùn)練集中的噪聲數(shù)據(jù)點(diǎn)而傾斜。該假設(shè)在 Xu 等人 [26] 撰寫(xiě)的論文中找到了理論依據(jù)，該文將支持向量機(jī)的魯棒性與正則化聯(lián)系起來(lái)。此外，還可以通過(guò)實(shí)驗(yàn)來(lái)檢驗(yàn)該假設(shè)：旨在減少過(guò)擬合的技術(shù)，如 L2 正則化，有望減少對(duì)抗樣本現(xiàn)象。

例如，考慮包含一個(gè)噪聲數(shù)據(jù)點(diǎn) P 的訓(xùn)練集。

微信圖片_20180807201545.jpg

如果我們?cè)谶@個(gè)訓(xùn)練集上訓(xùn)練 SVM 或 logistic 回歸模型，我們觀察到兩種可能的現(xiàn)象。

微信圖片_20180807201606.jpg

此時(shí)，人們可能會(huì)合理地懷疑：位于二維圖像空間上的一維數(shù)據(jù)流形與高維自然圖像有什么關(guān)系？

線性分類中的對(duì)抗樣本

下面，我們將證明在前一個(gè)玩具問(wèn)題中介紹的兩個(gè)主要觀點(diǎn)在一般情況下仍然有效：在分類邊界與數(shù)據(jù)流形非常接近且 L2 正則化控制邊界傾斜角度時(shí)會(huì)出現(xiàn)對(duì)抗樣本。

縮放損失函數(shù)

讓我們從一個(gè)簡(jiǎn)單的觀察入手：在訓(xùn)練期間，權(quán)重向量的范數(shù)充當(dāng)損失函數(shù)的縮放參數(shù)。

設(shè)置

若 I 和 J 是兩類圖像，C 是定義 Rd 中線性分類器的超平面邊界。C 由正常權(quán)重向量 w 和偏置 b 指定。對(duì)于 Rd 中的圖像 x，我們將 x 到 C 的原始分?jǐn)?shù)稱為值：

微信圖片_20180807201626.jpg

現(xiàn)在，考慮 n 對(duì) (x,y) 組成的訓(xùn)練集 T，其中 x 是圖像，并且 y={?1 if x∈I|1 if x∈J} 是其標(biāo)簽。我們對(duì)以下數(shù)量在 T 上的分布感興趣：

微信圖片_20180807201649.jpg

由此為分類器 C 引出經(jīng)驗(yàn)風(fēng)險(xiǎn) R(w,b) 的概念，被定義為訓(xùn)練集 T 上的平均懲罰項(xiàng)：

微信圖片_20180807201711.jpg

總的來(lái)說(shuō)，學(xué)習(xí)一個(gè)線性分類器包括：為精心選擇的損失函數(shù) f 找到權(quán)重向量 w 和偏置 b 并最小化 R(w,b)。

在二分類中有以下三種值得注意的損失函數(shù)：

微信圖片_20180807201729.jpg

對(duì)于 0-1 指示函數(shù)，經(jīng)驗(yàn)風(fēng)險(xiǎn)只是 T 上的錯(cuò)誤率。在某種意義上，這是最佳損失函數(shù)，因?yàn)樽钚』e(cuò)誤率往往是實(shí)踐中所渴求的目標(biāo)。不幸的是，該函數(shù)不適合梯度下降（沒(méi)有可以下降的梯度：每一處的導(dǎo)數(shù)都為 0）

通過(guò)將誤分類數(shù)據(jù)上的單元懲罰替換為嚴(yán)格遞減懲罰，hinge 損失函數(shù)（用于 SVM）和 softplus 損失函數(shù)（用于 logistic 回歸）克服了這一局限性。注意：這兩個(gè)損失函數(shù)也會(huì)懲罰一些邊界附近正確分類的數(shù)據(jù)，有效地保證了安全邊際。

縮放參數(shù)∥w∥

之前忽視了很重要的一點(diǎn)，即符號(hào)距離 s(x) 是通過(guò)權(quán)重向量的范數(shù)來(lái)縮放的。如果 d(x) 是 x 和 C 之間的實(shí)際符號(hào)歐氏距離，那么我們有：

微信圖片_20180807201749.jpg

因此，范數(shù)‖w‖可以理解為損失函數(shù)在經(jīng)驗(yàn)風(fēng)險(xiǎn)表達(dá)式中的縮放參數(shù)：

微信圖片_20180807201925.jpg

我們這樣定義損失函數(shù) f‖w‖:z→f(‖w‖×z)。

我們觀察到，重新縮放后，0-1 指示函數(shù)不變，但 hinge 損失函數(shù)和 softplus 損失函數(shù)卻受到了很大影響。

微信圖片_20180807201946.jpg

0-1 指示函數(shù)

值得注意的是，對(duì)于縮放參數(shù)的極值，hinge 損失和 softplus 損失函數(shù)表現(xiàn)一致。

微信圖片_20180807202007.jpg

更確切地說(shuō)，兩個(gè)損失函數(shù)都滿足：

微信圖片_20180807202028.jpg

為方便表述，我們將誤分類數(shù)據(jù)集表示為：

微信圖片_20180807202046.jpg

經(jīng)驗(yàn)風(fēng)險(xiǎn)可以表示為：

微信圖片_20180807202106.jpg

這一表達(dá)包含一個(gè)名為誤差距離的項(xiàng)：

微信圖片_20180807202125.jpg

該項(xiàng)為正，可以理解為被 C 誤分類的每個(gè)訓(xùn)練樣本之間的平均距離（對(duì)正確分類數(shù)據(jù)沒(méi)有貢獻(xiàn)）。它與訓(xùn)練誤差相關(guān)——盡管并不完全相等。

最后，我們得到：

微信圖片_20180807202146.jpg

以上公式可以用語(yǔ)言表述為：當(dāng)‖w‖很大時(shí)，將 hinge 損失和 softplus 損失最小化就等于將錯(cuò)誤距離最小化，近似于將訓(xùn)練集上的錯(cuò)誤率最小化。

微信圖片_20180807202226.jpg

更確切地說(shuō)，對(duì)于一些正值α和β，兩個(gè)損失函數(shù)都滿足：

微信圖片_20180807202249.jpg

經(jīng)驗(yàn)風(fēng)險(xiǎn)可以表示為：

微信圖片_20180807202313.jpg

這一表述包含一個(gè)名為對(duì)抗距離的項(xiàng)：

微信圖片_20180807202345.jpg

這是 T 中圖像和分類邊界 C 之間的平均距離（對(duì)于誤分類圖像的貢獻(xiàn)為負(fù)）。可以將它看做針對(duì)對(duì)抗干擾的魯棒性的度量：d_adv 比較高時(shí)，誤分類圖像的數(shù)量有限，正確分類的圖像距離 C 非常遠(yuǎn)。

最后我們可以得到：

微信圖片_20180807202405.jpg

也就是說(shuō)，當(dāng) ‖w‖很小時(shí)，將 hinge 損失和 softplus 損失最小化就等于將對(duì)抗距離最大化，這可以解釋為將對(duì)抗樣本最小化的現(xiàn)象。

結(jié)束語(yǔ)

實(shí)際上，可以通過(guò)在經(jīng)驗(yàn)風(fēng)險(xiǎn)中添加正則項(xiàng)來(lái)控制 ‖w‖ 的值，從而產(chǎn)生正則損失：

微信圖片_20180807202430.jpg

小的正則化參數(shù) λ 可以讓 ‖w‖ 無(wú)限制地增長(zhǎng)，而較大的 λ 則導(dǎo)致 ‖w‖ 收縮。

總之，用于線性分類（SVM 和邏輯回歸）的兩個(gè)標(biāo)準(zhǔn)模型在兩個(gè)目標(biāo)之間平衡：

當(dāng)正則化程度低時(shí)，它們最小化誤差距離；

當(dāng)正則化程度高時(shí)，它們最大化對(duì)抗距離。

對(duì)抗距離和傾斜角度

前一節(jié)中出現(xiàn)的對(duì)抗距離是對(duì)對(duì)抗干擾魯棒性的度量。更方便的是，它可以表示為單個(gè)參數(shù)的函數(shù)：分類邊界和最近質(zhì)心分類器之間的角度。

如果 T_I 和 T_J 分別是 T 對(duì) I 和 J 中元素的限制，我們可以寫(xiě)作：

微信圖片_20180807202450.jpg

如果 T_I 和 T_J 平衡（n=2n_I=2n_J）：

微信圖片_20180807202515.jpg

如果 i 和 j 分別為 T_I 和 T_J 的質(zhì)心：

微信圖片_20180807202536.jpg

現(xiàn)在介紹最近質(zhì)心分類器，它的單位法向量 z^=(j?i)/‖j?i‖：

微信圖片_20180807202559.jpg

最后，我們稱包含 w hat 和 z hat 的斜平面為 C，稱在 w hat 和 z hat 內(nèi)的角θ為傾斜角 C：

d_adv=12‖j?i‖cos?(θ)

該方程在斜平面上的幾何解釋是：

微信圖片_20180807202630.jpg

在一個(gè)給定的訓(xùn)練集 T 內(nèi)，兩個(gè)質(zhì)心的距離 ‖j?i‖已經(jīng)固定，d_adv 只取決于傾斜角θ。會(huì)出現(xiàn)以下兩個(gè)現(xiàn)象：

通過(guò)最近質(zhì)心分類器（θ=0）可以使對(duì)抗現(xiàn)象最小化

當(dāng)θ→π/2 時(shí)，對(duì)抗樣本可以任意增強(qiáng)（如在玩具問(wèn)題部分的分類器 L_θ一樣）

舉例：SVM on MNIST

我們現(xiàn)在要說(shuō)明先前關(guān)于 MNIST 數(shù)據(jù)的二進(jìn)制分類的注意事項(xiàng)。對(duì)于每一種能夠分類的數(shù)字，我們利用每類有 3000 張圖片的數(shù)據(jù)集來(lái)訓(xùn)練多個(gè) SVM 模型（w,b）, 正則化參數(shù)λ∈[10^?1,10^7]。

我們首先繪制訓(xùn)練數(shù)據(jù)和邊界之間的距離 y_d（x）的分布作為正則化參數(shù)λ（灰色直方圖）的函數(shù)。在每個(gè)模型收斂（藍(lán)線）后疊加損失函數(shù) f‖w‖。

微信圖片_20180807202731.jpg

可以看到 hinge 損失的縮小對(duì)獲得的模型有明顯的影響。不幸的是，訓(xùn)練誤差最小化和對(duì)抗距離最大化是相互矛盾的目標(biāo)：當(dāng) λ很小，err_train 最小化；當(dāng)λ很大，d_adv 最大化。注意，對(duì)于中級(jí)正規(guī)化λ_optimal，測(cè)試誤差最小化。當(dāng)λ<λ_optimal 時(shí)，分類器會(huì)過(guò)擬合；當(dāng)λ>λ_optimal 時(shí)，分類器欠擬合。

為了更好地理解這兩個(gè)目標(biāo)是如何平衡的，我們可以從不同的角度來(lái)看訓(xùn)練數(shù)據(jù)。

首先計(jì)算最近質(zhì)心分類器的單位權(quán)重向量 z hat，然后針對(duì)每個(gè) SVM 模型 (w,b) 計(jì)算出單位向量 n hat，這樣 (z hat,n hat) 就是斜平面 w 的一組標(biāo)準(zhǔn)正交基。最后，將訓(xùn)練數(shù)據(jù)映射到 (z hat,n hat):

水平方向穿過(guò)兩個(gè)質(zhì)心，選定垂直方向，使 w 屬于該平面（超平面邊界則以直線形式出現(xiàn)）。由于 (z hat,n hat) 是一組標(biāo)準(zhǔn)正交基，所以這個(gè)平面的距離實(shí)際上是像素的距離。要理解為什么當(dāng)λ變化時(shí)數(shù)據(jù)點(diǎn)移動(dòng)，我們需要想象傾斜平面在 784 維輸入空間內(nèi)繞在 z hat 旋轉(zhuǎn)（所以對(duì)于每個(gè) λ值都會(huì)顯示 784 維訓(xùn)練數(shù)據(jù)里對(duì)應(yīng)的每個(gè)不同的部分）。

對(duì)于高正則化等級(jí)，此模型與最近質(zhì)心分類器平行，且對(duì)抗距離最大化。當(dāng)λ減少, 分類邊界通過(guò)向低方差的方向傾斜提升它對(duì)訓(xùn)練數(shù)據(jù)的適應(yīng)性。最終，少量錯(cuò)誤分類的訓(xùn)練樣本被覆蓋，導(dǎo)致對(duì)抗距離減小，權(quán)重向量難以解釋。

最后，我們可以發(fā)現(xiàn)每個(gè)模型中的兩個(gè)典型映像 x、y（每類一個(gè)）和它們的鏡像 x_m、y_m。它們?cè)趦A斜平面 w 上的投影直觀地反映了線性分類中的對(duì)抗現(xiàn)象。

微信圖片_20180807203256.jpg

當(dāng)傾斜角接近π/2 時(shí)，該模型易受強(qiáng)對(duì)抗樣本 (||x_m?x||→0 and ||y_m?y||→0) 的影響。這是強(qiáng)過(guò)擬合的表現(xiàn)，它的發(fā)生與否取決于區(qū)分這兩個(gè)類的難度 (對(duì)比 7s 和 9s 的分類以及 0 和 1 的分類)。

神經(jīng)網(wǎng)絡(luò)中的對(duì)抗樣本

由于對(duì)抗距離和傾斜角度的等效性，線性問(wèn)題非常簡(jiǎn)單，可以在平面上可視化。然而在神經(jīng)網(wǎng)絡(luò)中，類邊界不是平坦的，對(duì)抗距離無(wú)法縮減為單個(gè)參數(shù)。盡管如此，它與線性問(wèn)題仍有相似之處。

第一步：雙層二值網(wǎng)絡(luò)

假設(shè) N 是一個(gè)雙層網(wǎng)絡(luò)，具有定義 R^d 中非線性二值分類器的單個(gè)輸出。N 的第一層由權(quán)重矩陣 W_1 和偏置向量 b_1 指定，N 的第二層由權(quán)重向量 W_2 和偏置 b_2 指定。我們假設(shè)這兩個(gè)層被校正線性單元的?層分開(kāi)，該校正線性單元應(yīng)用函數(shù) z→max(0,z)。對(duì)于 R^d 中的圖像 x，我們將 x 到 N 的原始分?jǐn)?shù)稱為值：

微信圖片_20180807203345.jpg

與線性問(wèn)題相似，損失函數(shù) f 在 T 上的經(jīng)驗(yàn)風(fēng)險(xiǎn)可以表示為：

微信圖片_20180807203407.jpg

而訓(xùn)練 N 在于為選好的 f 找到 W_1、b_1、W_2 和 b_2 以及最小化 R。

? 是分段線性的，并且在每個(gè)圖像 x 周圍存在局部線性區(qū)域 L_x，其中：

微信圖片_20180807203428.jpg

其中 W_1^x 和 b_1^x 是通過(guò)將 W_1 和 b_1 中的一些線分別置零而獲得的。在 L_x 中，原始分?jǐn)?shù)可以表示為：

微信圖片_20180807203452.jpg

這可以被視為局部線性分類器 C_x 的原始分?jǐn)?shù)，我們對(duì)線性問(wèn)題的分析幾乎可以不加修飾地應(yīng)用。首先，我們觀察到 s(x) 是一個(gè)折合距離。如果 d(x) 是 x 和 C_x 之間實(shí)際帶符號(hào)的歐氏距離，我們可以得到以下公式：

微信圖片_20180807203520.jpg

備注：

d(x) 也可以看做是 x 和由 N 定義的邊界之間距離的線性近似（到最近的對(duì)抗樣本的距離）。

W2W1^x 是 N 在 L_x 內(nèi)的梯度。它是 x 的對(duì)抗方向，在實(shí)踐中通過(guò)反向傳播進(jìn)行計(jì)算。

范數(shù)‖W2W1^x‖可以理解為損失函數(shù)的縮放參數(shù)（縮放現(xiàn)在是局部的，依賴于 x）。同時(shí)控制所有局部縮放的一個(gè)簡(jiǎn)單方法是將 L2 正則化項(xiàng)添加到獨(dú)立作用于范數(shù)‖W_1‖和‖W_2‖的經(jīng)驗(yàn)風(fēng)險(xiǎn)中（請(qǐng)記住，W1^x 中的權(quán)重是 W1 中權(quán)重的子集）。隨著梯度下降，這相當(dāng)于在每次迭代中衰減權(quán)重 W_1 和 W_2。隨著梯度下降，這相當(dāng)于在每次迭代中衰減權(quán)重 W_1 和 W_2。更確切地說(shuō)，對(duì)于學(xué)習(xí)率η和衰減因數(shù)λ，權(quán)重衰減更新為：

W_1←W_1?ηλW_1 和 W_2←W_2?ηλW_2

在衰減因數(shù)小的情況下，允許縮放參數(shù)‖W_2W_1^x‖無(wú)限制增長(zhǎng)，損失只懲罰誤分類數(shù)據(jù)。將經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化相當(dāng)于將訓(xùn)練集上的誤差最小化。

隨著衰減因數(shù)λ增大，縮放參數(shù)‖W_2W_1^x‖減小，損失函數(shù)開(kāi)始懲罰越來(lái)越多的正確分類數(shù)據(jù)，使其距離邊界越來(lái)越遠(yuǎn)。在這種情況下，L2 權(quán)重衰減可以看做是一種對(duì)抗訓(xùn)練。

總之，L2 正則化充當(dāng)損失函數(shù)上的縮放機(jī)制，在線性分類和小型神經(jīng)網(wǎng)絡(luò)中都是如此。

隨著梯度下降，利用大幅度權(quán)重衰減可以進(jìn)行一種簡(jiǎn)單的對(duì)抗訓(xùn)練。

第二步：通常情況

之前的分析可以推廣到更多的層數(shù)，甚至是非分段線性激活函數(shù)。更重要的發(fā)現(xiàn)是：

微信圖片_20180807203543.jpg

?_x s 是 x 的原始分?jǐn)?shù)梯度，d(x) 是網(wǎng)絡(luò)定義的 x 和邊界之間距離的線性近似。范數(shù)‖?_x s‖構(gòu)成損失函數(shù)的尺度參數(shù)，該參數(shù)可以用來(lái)控制權(quán)重的衰減。

這種思想不止適用于二分類。在多分類情況下，原始分?jǐn)?shù)為一個(gè)向量，其元素被稱作 logits。每個(gè) logitsi(x) 通過(guò) softmax 函數(shù)轉(zhuǎn)換為概率 pi(x):

微信圖片_20180807203605.jpg

圖像/標(biāo)簽對(duì) (x,y) 正確分類的概率是 p_y(x)。對(duì)數(shù)似然損失函數(shù)通過(guò)將以下懲罰項(xiàng)歸于 (x,y)，使其接近于 1。

微信圖片_20180807203626.jpg

現(xiàn)在，改變權(quán)重衰減影響了 logits 的縮放，有效充當(dāng)了 softmax 函數(shù)的 temperature 參數(shù)。當(dāng)權(quán)重衰減非常小，生成的概率分布會(huì)很接近 one-hot 編碼（p_y(x)≈0 or 1），只有分類錯(cuò)誤的數(shù)據(jù)會(huì)產(chǎn)生非零懲罰。當(dāng)權(quán)重衰減較大，生成的概率分布會(huì)變得更加的平滑，正確分類的數(shù)據(jù)也開(kāi)始參與到訓(xùn)練中，從而避免了過(guò)擬合。

實(shí)際觀察結(jié)果表明，現(xiàn)代深度網(wǎng)絡(luò)都沒(méi)有得到充分正則化：

1. 經(jīng)常校準(zhǔn)不良并產(chǎn)生過(guò)于自信的預(yù)測(cè) [28]。

2. 總是收斂到零訓(xùn)練誤差，即使在數(shù)據(jù)的隨機(jī)標(biāo)記任務(wù)中也如此 [29]。

3. 易受到小規(guī)模線性攻擊 [2]。

舉例：LeNet on MNIST

僅利用權(quán)重衰減對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行正則化就能處理對(duì)抗樣本嗎？這個(gè)想法非常簡(jiǎn)單，并已被考量過(guò)：Goodfellow 等人 [2] 觀察到，在線性情況下，對(duì)抗訓(xùn)練「有點(diǎn)類似于 L1 正則化」。然而作者曾報(bào)道，在 MNIST 上對(duì) maxout 網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)，L1 0.0025 的權(quán)重衰減系數(shù)「有點(diǎn)過(guò)大，導(dǎo)致模型在訓(xùn)練集上的誤差超過(guò) 5%。較小的權(quán)重衰減系數(shù)可以帶來(lái)成功的訓(xùn)練，但不會(huì)帶來(lái)正則化效益。」我們?cè)俅螌⒋讼敕ǜ吨T實(shí)踐，得到的觀察結(jié)果更加細(xì)致。使用較大的權(quán)重衰減顯然不是靈丹妙藥，但我們發(fā)現(xiàn)它確實(shí)有助于減少對(duì)抗樣本現(xiàn)象，至少在簡(jiǎn)單的設(shè)置中如此。

考慮到 MNIST 上的的 LeNet(10 類別問(wèn)題)。我們使用基線 MatConvNet[30] 實(shí)現(xiàn)，其架構(gòu)如下：

微信圖片_20180807203656.jpg

我們分別用一個(gè) 10^?4 的小幅度權(quán)重衰減和一個(gè) 10^?1 的大幅度權(quán)重衰減訓(xùn)練該網(wǎng)絡(luò)（我們將訓(xùn)練后的兩種網(wǎng)絡(luò)分別稱為 LeNet_low 和 LeNet_high）。我們保持其它所有參數(shù)不變：訓(xùn)練 50 個(gè) epoch，批尺寸為 300，學(xué)習(xí)率為 0.0005，動(dòng)量為 0.9。

我們可以進(jìn)行若干次觀察。首先繪制兩個(gè)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試誤差，將其作為 epoch 的函數(shù)。

微信圖片_20180807203723.jpg

從圖中可以看出，LeNet_high 的過(guò)擬合較少（訓(xùn)練和測(cè)試誤差在訓(xùn)練結(jié)束時(shí)大致相等），并且比 LeNet_low 的性能稍好一點(diǎn)（最終測(cè)試誤差為 1.2 % VS 1.6 %）。

我們還可以檢查學(xué)到的權(quán)重。下面，我們計(jì)算它們的均方根值（RMS），并為每個(gè)卷積層隨機(jī)選擇濾波器。

微信圖片_20180807203749.jpg

不出所料，隨著較大權(quán)重衰減學(xué)習(xí)到的權(quán)重 RMS 要小得多。LeNet_high 的濾波器也比 LeNet_low 的濾波器要更平滑（參見(jiàn) Conv1 和 Conv2 中邊緣檢測(cè)器帶噪聲的情況），并且它們的幅度在每個(gè)卷積層中變化更大（參見(jiàn) Conv2 和 FC1 中的均勻灰度濾波器）。

最后，我們對(duì)兩個(gè)網(wǎng)絡(luò)進(jìn)行相同的視覺(jué)評(píng)估：對(duì)于每個(gè)數(shù)字的隨機(jī)實(shí)例，我們會(huì)生成一個(gè)高置信度對(duì)抗樣本，目標(biāo)是執(zhí)行標(biāo)簽 0→1,1→2,…9→0 的循環(huán)排列。具體而言，通過(guò)對(duì)期望標(biāo)簽的概率進(jìn)行梯度上升直到中值達(dá)到 0.95，來(lái)生成每個(gè)對(duì)抗樣本。我們?cè)谙聢D展示了十幅原始圖像 OI，以及它們對(duì)應(yīng)的對(duì)抗樣本 AE 和對(duì)抗干擾 Pert。

微信圖片_20180807203814.jpg

我們看到 LeNet_high 比 LeNet_low 更不容易受到對(duì)抗樣本的影響：對(duì)抗干擾有更高的 L2 范數(shù)，這對(duì)觀察者來(lái)說(shuō)更有意義。

未來(lái)研究展望

雖然近年來(lái)對(duì)抗樣本已經(jīng)引起了廣泛關(guān)注，并且它對(duì)機(jī)器學(xué)習(xí)的理論和實(shí)踐來(lái)說(shuō)都有很大意義，但迄今為止仍有很多不明之處。本文旨在提供一個(gè)關(guān)于對(duì)抗樣本線性問(wèn)題的清晰、直觀概覽，希望為后續(xù)工作打下堅(jiān)實(shí)的基礎(chǔ)。我們還發(fā)現(xiàn) L2 權(quán)重衰減在 MINIST 的一個(gè)小型神經(jīng)網(wǎng)絡(luò)中發(fā)揮的作用超出預(yù)期。

但是，在更為復(fù)雜的數(shù)據(jù)集的更深模型中，一切都變得更加復(fù)雜。我們發(fā)現(xiàn)，模型的非線性越強(qiáng)，權(quán)重衰減似乎越?jīng)]有幫助。這一局限可能很淺顯，需要進(jìn)一步探究（例如，我們可能應(yīng)該在訓(xùn)練時(shí)更加注意對(duì)數(shù)幾率的縮放）。或者深層網(wǎng)絡(luò)的高度非線性可能是阻礙 L2 正則化實(shí)現(xiàn)一階對(duì)抗訓(xùn)練類型的根本障礙。我們認(rèn)為，要找到令人滿意的解決方案，可能需要關(guān)于深度學(xué)習(xí)的嶄新思路。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

深度 | L2正則化和對(duì)抗魯棒性的關(guān)系

日期： 2018-08-07

相關(guān)內(nèi)容