《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > 深度 | L2正則化和對抗魯棒性的關系

深度 | L2正則化和對抗魯棒性的關系

2018-08-07
關鍵詞: 對抗樣本 機器學習

雖然近年來對抗樣本已經引起了廣泛關注,并且它對機器學習的理論和實踐來說都有很大意義,但迄今為止仍有很多不明之處。為此,來自倫敦大學學院(UCL)的醫學與生命科學跨學科研究中心(CoMPLEX)的Thomas Tanay、Lewis D Griffin寫下了本文,旨在提供一個關于對抗樣本線性問題的清晰、直觀概覽。他們分析了 L2 正則化對對抗魯棒性的影響,以及對抗魯棒性和經驗風險之間的權衡,并將結論擴展到神經網絡,希望為后續工作打下堅實的基礎。文中使用了簡單而典型的例子,在原網頁上包含大量交互可視化示例,對加強直觀理解很有幫助。

微信圖片_20180807195449.jpg



微信圖片_20180807195518.jpg

兩個高維聚類由一個超平面分離,考慮超平面和圖中水平線之間的夾角,在線性分類中,這個夾角取決于 L2 正則化的程度,你知道為什么嗎?上圖:L2 正則化程度較小;下圖:L2 正則化程度較大。


深度學習網絡已被證實容易受到對抗樣本攻擊:小的圖像干擾能夠大幅改變目前測試過的所有模型的分類 [1, 2]。例如,以下預測就是由為識別名人而訓練的當前最佳網絡做出的 [3]:

微信圖片_20180807195555.jpg



該結果令人困惑有兩個原因。第一,它挑戰了一個普遍的觀點,即對新數據的良好泛化和對小干擾的魯棒性是并行不悖的。第二,它對真實世界中的應用構成了潛在威脅 [4, 5, 6]。例如,MIT 的研究者們最近構建了在廣泛的角度和視點分布下被錯誤分類的 3D 對象 [7]。理解這種現象并提高深度網絡的魯棒性由此成為一個重要的研究目標。


目前已有幾種方法投入研究。相關論文提供了關于此現象的詳細描述 [8, 9] 和理論分析 [10, 11, 12]。研究者已經嘗試構建更加魯棒的架構 [13, 14, 15, 16] 或在評估中檢測對抗樣本 [17, 18, 19, 20]。對抗訓練已經作為一種懲罰對抗方向的正則化新技術被引入 [2, 5, 21, 22]。然而不幸的是,這一問題還遠遠沒有解決 [23, 24]。面對這一難題,我們提出從最基本的問題入手:先克服線性分類困難,然后再逐步解決更復雜的問題。


玩具問題


在線性分類中,對抗干擾通常被理解為高維點積的一個屬性。一個普遍的觀點是:「對于高維問題,我們可以對輸入進行很多無窮小的改變,這些改變加起來就是對輸出的一個大改變。」[2] 我們對這種觀點存疑,并認為當分類邊界靠近數據流形,即獨立于圖像空間維度時,存在對抗樣本。


設置


讓我們從一個最簡單的玩具問題開始:一個二維圖像空間,其中每個圖像是 a 和 b 的函數。

微信圖片_20180807195617.jpg



在這個簡單的圖像空間中,我們定義了兩類圖像……

微信圖片_20180807195718.jpg



···它們可以被無限個線性分類器分開,例如分類器 L_θ。

微信圖片_20180807195739.jpg



由此產生第一個問題:如果所有的線性分類器 L_θ 都能將 I 類和 J 類很好地分離,那它們對抗圖像干擾的魯棒性是否相同?


投影圖像和鏡像圖像:


考慮 I 類中的圖像 x。在相反類中與 x 最接近的圖像是 x 在 L_θ 上的投影圖像 x_p:

微信圖片_20180807200322.jpg

當 x 和 x_p 非常接近時,我們稱 x_p 是 x 的對抗樣本。盡管 x_p 被歸為低置信度(它位于邊界上),但高置信度對抗樣本可能更引人關注 [24]。接下來,我們將通過 L_θ 重點介紹 x 的鏡像圖像 x_m:

微信圖片_20180807200436.jpg



通過構造鏡像圖像,x 和 x_m 到邊界的距離相同,并且被分為相同的置信度水平。


θ函數的鏡像圖像


回到玩具問題,現在我們可以繪制圖像 x 及其鏡像 x_m 作為 θ 的函數。

微信圖片_20180807200453.jpg

從圖中可以發現,x 和 x_m 之間的距離取決于角度 θ。這兩個邊緣案例非常有趣。

微信圖片_20180807201522.jpg

由此產生第二個問題:如果在 L_θ 嚴重傾斜時存在對抗樣本,那么實際上是什么使 L_θ 傾斜?


過擬合與 L2 正則化


本文的假設是,由標準線性學習算法(如支持向量機(SVM)或 logistic 回歸模型)定義的分類邊界通過過擬合訓練集中的噪聲數據點而傾斜。該假設在 Xu 等人 [26] 撰寫的論文中找到了理論依據,該文將支持向量機的魯棒性與正則化聯系起來。此外,還可以通過實驗來檢驗該假設:旨在減少過擬合的技術,如 L2 正則化,有望減少對抗樣本現象。


例如,考慮包含一個噪聲數據點 P 的訓練集。

微信圖片_20180807201545.jpg

如果我們在這個訓練集上訓練 SVM 或 logistic 回歸模型,我們觀察到兩種可能的現象。

微信圖片_20180807201606.jpg

此時,人們可能會合理地懷疑:位于二維圖像空間上的一維數據流形與高維自然圖像有什么關系?


線性分類中的對抗樣本


下面,我們將證明在前一個玩具問題中介紹的兩個主要觀點在一般情況下仍然有效:在分類邊界與數據流形非常接近且 L2 正則化控制邊界傾斜角度時會出現對抗樣本。


縮放損失函數


讓我們從一個簡單的觀察入手:在訓練期間,權重向量的范數充當損失函數的縮放參數。


設置


若 I 和 J 是兩類圖像,C 是定義 Rd 中線性分類器的超平面邊界。C 由正常權重向量 w 和偏置 b 指定。對于 Rd 中的圖像 x,我們將 x 到 C 的原始分數稱為值:

微信圖片_20180807201626.jpg



現在,考慮 n 對 (x,y) 組成的訓練集 T,其中 x 是圖像,并且 y={?1 if x∈I|1 if x∈J} 是其標簽。我們對以下數量在 T 上的分布感興趣:

微信圖片_20180807201649.jpg

由此為分類器 C 引出經驗風險 R(w,b) 的概念,被定義為訓練集 T 上的平均懲罰項:

微信圖片_20180807201711.jpg



總的來說,學習一個線性分類器包括:為精心選擇的損失函數 f 找到權重向量 w 和偏置 b 并最小化 R(w,b)。


在二分類中有以下三種值得注意的損失函數:

微信圖片_20180807201729.jpg



對于 0-1 指示函數,經驗風險只是 T 上的錯誤率。在某種意義上,這是最佳損失函數,因為最小化錯誤率往往是實踐中所渴求的目標。不幸的是,該函數不適合梯度下降(沒有可以下降的梯度:每一處的導數都為 0)


通過將誤分類數據上的單元懲罰替換為嚴格遞減懲罰,hinge 損失函數(用于 SVM)和 softplus 損失函數(用于 logistic 回歸)克服了這一局限性。注意:這兩個損失函數也會懲罰一些邊界附近正確分類的數據,有效地保證了安全邊際。


縮放參數∥w∥


之前忽視了很重要的一點,即符號距離 s(x) 是通過權重向量的范數來縮放的。如果 d(x) 是 x 和 C 之間的實際符號歐氏距離,那么我們有:

微信圖片_20180807201749.jpg

因此,范數‖w‖可以理解為損失函數在經驗風險表達式中的縮放參數:

微信圖片_20180807201925.jpg



我們這樣定義損失函數 f‖w‖:z→f(‖w‖×z)。


我們觀察到,重新縮放后,0-1 指示函數不變,但 hinge 損失函數和 softplus 損失函數卻受到了很大影響。

微信圖片_20180807201946.jpg



0-1 指示函數


值得注意的是,對于縮放參數的極值,hinge 損失和 softplus 損失函數表現一致。

微信圖片_20180807202007.jpg



更確切地說,兩個損失函數都滿足:

微信圖片_20180807202028.jpg



為方便表述,我們將誤分類數據集表示為:

微信圖片_20180807202046.jpg

經驗風險可以表示為:

微信圖片_20180807202106.jpg



這一表達包含一個名為誤差距離的項:

微信圖片_20180807202125.jpg

該項為正,可以理解為被 C 誤分類的每個訓練樣本之間的平均距離(對正確分類數據沒有貢獻)。它與訓練誤差相關——盡管并不完全相等。


最后,我們得到:

微信圖片_20180807202146.jpg

以上公式可以用語言表述為:當‖w‖很大時,將 hinge 損失和 softplus 損失最小化就等于將錯誤距離最小化,近似于將訓練集上的錯誤率最小化。

微信圖片_20180807202226.jpg

更確切地說,對于一些正值α和β,兩個損失函數都滿足:

微信圖片_20180807202249.jpg



經驗風險可以表示為:

微信圖片_20180807202313.jpg

這一表述包含一個名為對抗距離的項:

微信圖片_20180807202345.jpg

這是 T 中圖像和分類邊界 C 之間的平均距離(對于誤分類圖像的貢獻為負)。可以將它看做針對對抗干擾的魯棒性的度量:d_adv 比較高時,誤分類圖像的數量有限,正確分類的圖像距離 C 非常遠。


最后我們可以得到:

微信圖片_20180807202405.jpg

也就是說,當 ‖w‖很小時,將 hinge 損失和 softplus 損失最小化就等于將對抗距離最大化,這可以解釋為將對抗樣本最小化的現象。


結束語


實際上,可以通過在經驗風險中添加正則項來控制 ‖w‖ 的值,從而產生正則損失:

微信圖片_20180807202430.jpg

小的正則化參數 λ 可以讓 ‖w‖ 無限制地增長,而較大的 λ 則導致 ‖w‖ 收縮。


總之,用于線性分類(SVM 和邏輯回歸)的兩個標準模型在兩個目標之間平衡:


當正則化程度低時,它們最小化誤差距離;

當正則化程度高時,它們最大化對抗距離。


對抗距離和傾斜角度


前一節中出現的對抗距離是對對抗干擾魯棒性的度量。更方便的是,它可以表示為單個參數的函數:分類邊界和最近質心分類器之間的角度。


如果 T_I 和 T_J 分別是 T 對 I 和 J 中元素的限制,我們可以寫作:

微信圖片_20180807202450.jpg

如果 T_I 和 T_J 平衡(n=2n_I=2n_J):

微信圖片_20180807202515.jpg



如果 i 和 j 分別為 T_I 和 T_J 的質心:

微信圖片_20180807202536.jpg

現在介紹最近質心分類器,它的單位法向量 z^=(j?i)/‖j?i‖:

微信圖片_20180807202559.jpg

最后,我們稱包含 w hat 和 z hat 的斜平面為 C,稱在 w hat 和 z hat 內的角θ為傾斜角 C:


d_adv=12‖j?i‖cos?(θ)


該方程在斜平面上的幾何解釋是:

微信圖片_20180807202630.jpg



在一個給定的訓練集 T 內,兩個質心的距離 ‖j?i‖已經固定,d_adv 只取決于傾斜角θ。會出現以下兩個現象:


通過最近質心分類器(θ=0)可以使對抗現象最小化

當θ→π/2 時,對抗樣本可以任意增強(如在玩具問題部分的分類器 L_θ一樣)


舉例:SVM on MNIST


我們現在要說明先前關于 MNIST 數據的二進制分類的注意事項。對于每一種能夠分類的數字,我們利用每類有 3000 張圖片的數據集來訓練多個 SVM 模型(w,b), 正則化參數λ∈[10^?1,10^7]。


我們首先繪制訓練數據和邊界之間的距離 y_d(x)的分布作為正則化參數λ(灰色直方圖)的函數。在每個模型收斂(藍線)后疊加損失函數 f‖w‖。

微信圖片_20180807202731.jpg

可以看到 hinge 損失的縮小對獲得的模型有明顯的影響。不幸的是,訓練誤差最小化和對抗距離最大化是相互矛盾的目標:當 λ很小,err_train 最小化;當λ很大,d_adv 最大化。注意,對于中級正規化λ_optimal,測試誤差最小化。當λ<λ_optimal 時,分類器會過擬合;當λ>λ_optimal 時,分類器欠擬合。


為了更好地理解這兩個目標是如何平衡的,我們可以從不同的角度來看訓練數據。


首先計算最近質心分類器的單位權重向量 z hat,然后針對每個 SVM 模型 (w,b) 計算出單位向量 n hat,這樣 (z hat,n hat) 就是斜平面 w 的一組標準正交基。最后,將訓練數據映射到 (z hat,n hat):




水平方向穿過兩個質心,選定垂直方向,使 w 屬于該平面(超平面邊界則以直線形式出現)。由于 (z hat,n hat) 是一組標準正交基,所以這個平面的距離實際上是像素的距離。要理解為什么當λ變化時數據點移動,我們需要想象傾斜平面在 784 維輸入空間內繞在 z hat 旋轉(所以對于每個 λ值都會顯示 784 維訓練數據里對應的每個不同的部分)。


對于高正則化等級,此模型與最近質心分類器平行,且對抗距離最大化。當λ減少, 分類邊界通過向低方差的方向傾斜提升它對訓練數據的適應性。最終,少量錯誤分類的訓練樣本被覆蓋,導致對抗距離減小,權重向量難以解釋。


最后,我們可以發現每個模型中的兩個典型映像 x、y(每類一個)和它們的鏡像 x_m、y_m。它們在傾斜平面 w 上的投影直觀地反映了線性分類中的對抗現象。

微信圖片_20180807203256.jpg

當傾斜角接近π/2 時,該模型易受強對抗樣本 (||x_m?x||→0 and ||y_m?y||→0) 的影響。這是強過擬合的表現,它的發生與否取決于區分這兩個類的難度 (對比 7s 和 9s 的分類以及 0 和 1 的分類)。


神經網絡中的對抗樣本


由于對抗距離和傾斜角度的等效性,線性問題非常簡單,可以在平面上可視化。然而在神經網絡中,類邊界不是平坦的,對抗距離無法縮減為單個參數。盡管如此,它與線性問題仍有相似之處。


第一步:雙層二值網絡


假設 N 是一個雙層網絡,具有定義 R^d 中非線性二值分類器的單個輸出。N 的第一層由權重矩陣 W_1 和偏置向量 b_1 指定,N 的第二層由權重向量 W_2 和偏置 b_2 指定。我們假設這兩個層被校正線性單元的?層分開,該校正線性單元應用函數 z→max(0,z)。對于 R^d 中的圖像 x,我們將 x 到 N 的原始分數稱為值:


微信圖片_20180807203345.jpg


與線性問題相似,損失函數 f 在 T 上的經驗風險可以表示為:


微信圖片_20180807203407.jpg


而訓練 N 在于為選好的 f 找到 W_1、b_1、W_2 和 b_2 以及最小化 R。


? 是分段線性的,并且在每個圖像 x 周圍存在局部線性區域 L_x,其中:


微信圖片_20180807203428.jpg


其中 W_1^x 和 b_1^x 是通過將 W_1 和 b_1 中的一些線分別置零而獲得的。在 L_x 中,原始分數可以表示為:


微信圖片_20180807203452.jpg


這可以被視為局部線性分類器 C_x 的原始分數,我們對線性問題的分析幾乎可以不加修飾地應用。首先,我們觀察到 s(x) 是一個折合距離。如果 d(x) 是 x 和 C_x 之間實際帶符號的歐氏距離,我們可以得到以下公式:


微信圖片_20180807203520.jpg


備注:


 d(x) 也可以看做是 x 和由 N 定義的邊界之間距離的線性近似(到最近的對抗樣本的距離)。

W2W1^x 是 N 在 L_x 內的梯度。它是 x 的對抗方向,在實踐中通過反向傳播進行計算。


范數‖W2W1^x‖可以理解為損失函數的縮放參數(縮放現在是局部的,依賴于 x)。同時控制所有局部縮放的一個簡單方法是將 L2 正則化項添加到獨立作用于范數‖W_1‖和‖W_2‖的經驗風險中(請記住,W1^x 中的權重是 W1 中權重的子集)。隨著梯度下降,這相當于在每次迭代中衰減權重 W_1 和 W_2。隨著梯度下降,這相當于在每次迭代中衰減權重 W_1 和 W_2。更確切地說,對于學習率η和衰減因數λ,權重衰減更新為:


W_1←W_1?ηλW_1 和 W_2←W_2?ηλW_2


在衰減因數小的情況下,允許縮放參數‖W_2W_1^x‖無限制增長,損失只懲罰誤分類數據。將經驗風險最小化相當于將訓練集上的誤差最小化。

隨著衰減因數λ增大,縮放參數‖W_2W_1^x‖減小,損失函數開始懲罰越來越多的正確分類數據,使其距離邊界越來越遠。在這種情況下,L2 權重衰減可以看做是一種對抗訓練。


總之,L2 正則化充當損失函數上的縮放機制,在線性分類和小型神經網絡中都是如此。


隨著梯度下降,利用大幅度權重衰減可以進行一種簡單的對抗訓練。


第二步:通常情況


之前的分析可以推廣到更多的層數,甚至是非分段線性激活函數。更重要的發現是:


微信圖片_20180807203543.jpg


 ?_x s 是 x 的原始分數梯度,d(x) 是網絡定義的 x 和邊界之間距離的線性近似。范數‖?_x s‖構成損失函數的尺度參數,該參數可以用來控制權重的衰減。


這種思想不止適用于二分類。在多分類情況下,原始分數為一個向量,其元素被稱作 logits。每個 logitsi(x) 通過 softmax 函數轉換為概率 pi(x):


微信圖片_20180807203605.jpg


圖像/標簽對 (x,y) 正確分類的概率是 p_y(x)。對數似然損失函數通過將以下懲罰項歸于 (x,y),使其接近于 1。


微信圖片_20180807203626.jpg


現在,改變權重衰減影響了 logits 的縮放,有效充當了 softmax 函數的 temperature 參數。當權重衰減非常小,生成的概率分布會很接近 one-hot 編碼(p_y(x)≈0 or 1),只有分類錯誤的數據會產生非零懲罰。當權重衰減較大,生成的概率分布會變得更加的平滑,正確分類的數據也開始參與到訓練中,從而避免了過擬合。


實際觀察結果表明,現代深度網絡都沒有得到充分正則化:


1. 經常校準不良并產生過于自信的預測 [28]。

2. 總是收斂到零訓練誤差,即使在數據的隨機標記任務中也如此 [29]。

3. 易受到小規模線性攻擊 [2]。


舉例:LeNet on MNIST


僅利用權重衰減對神經網絡進行正則化就能處理對抗樣本嗎?這個想法非常簡單,并已被考量過:Goodfellow 等人 [2] 觀察到,在線性情況下,對抗訓練「有點類似于 L1 正則化」。然而作者曾報道,在 MNIST 上對 maxout 網絡進行訓練時,L1 0.0025 的權重衰減系數「有點過大,導致模型在訓練集上的誤差超過 5%。較小的權重衰減系數可以帶來成功的訓練,但不會帶來正則化效益。」我們再次將此想法付諸實踐,得到的觀察結果更加細致。使用較大的權重衰減顯然不是靈丹妙藥,但我們發現它確實有助于減少對抗樣本現象,至少在簡單的設置中如此。


考慮到 MNIST 上的的 LeNet(10 類別問題)。我們使用基線 MatConvNet[30] 實現,其架構如下:


微信圖片_20180807203656.jpg


我們分別用一個 10^?4 的小幅度權重衰減和一個 10^?1 的大幅度權重衰減訓練該網絡(我們將訓練后的兩種網絡分別稱為 LeNet_low 和 LeNet_high)。我們保持其它所有參數不變:訓練 50 個 epoch,批尺寸為 300,學習率為 0.0005,動量為 0.9。


我們可以進行若干次觀察。首先繪制兩個網絡的訓練和測試誤差,將其作為 epoch 的函數。



微信圖片_20180807203723.jpg


從圖中可以看出,LeNet_high 的過擬合較少(訓練和測試誤差在訓練結束時大致相等),并且比 LeNet_low 的性能稍好一點(最終測試誤差為 1.2 % VS 1.6 %)。


我們還可以檢查學到的權重。下面,我們計算它們的均方根值(RMS),并為每個卷積層隨機選擇濾波器。


微信圖片_20180807203749.jpg

不出所料,隨著較大權重衰減學習到的權重 RMS 要小得多。LeNet_high 的濾波器也比 LeNet_low 的濾波器要更平滑(參見 Conv1 和 Conv2 中邊緣檢測器帶噪聲的情況),并且它們的幅度在每個卷積層中變化更大(參見 Conv2 和 FC1 中的均勻灰度濾波器)。


最后,我們對兩個網絡進行相同的視覺評估:對于每個數字的隨機實例,我們會生成一個高置信度對抗樣本,目標是執行標簽 0→1,1→2,…9→0 的循環排列。具體而言,通過對期望標簽的概率進行梯度上升直到中值達到 0.95,來生成每個對抗樣本。我們在下圖展示了十幅原始圖像 OI,以及它們對應的對抗樣本 AE 和對抗干擾 Pert。


微信圖片_20180807203814.jpg

我們看到 LeNet_high 比 LeNet_low 更不容易受到對抗樣本的影響:對抗干擾有更高的 L2 范數,這對觀察者來說更有意義。


未來研究展望


雖然近年來對抗樣本已經引起了廣泛關注,并且它對機器學習的理論和實踐來說都有很大意義,但迄今為止仍有很多不明之處。本文旨在提供一個關于對抗樣本線性問題的清晰、直觀概覽,希望為后續工作打下堅實的基礎。我們還發現 L2 權重衰減在 MINIST 的一個小型神經網絡中發揮的作用超出預期。


但是,在更為復雜的數據集的更深模型中,一切都變得更加復雜。我們發現,模型的非線性越強,權重衰減似乎越沒有幫助。這一局限可能很淺顯,需要進一步探究(例如,我們可能應該在訓練時更加注意對數幾率的縮放)。或者深層網絡的高度非線性可能是阻礙 L2 正則化實現一階對抗訓練類型的根本障礙。我們認為,要找到令人滿意的解決方案,可能需要關于深度學習的嶄新思路。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 亚洲精品国产免费| 国产日韩在线视频| 久久96国产精品久久久| 精品亚洲一区二区三区在线播放 | 你懂得的在线观看免费视频| 韩国高清在线观看| 国产精品无码久久久久| 一区二区三区福利视频| 日韩三级电影免费| 亚洲欧美7777| 秋霞午夜在线观看| 国产一级特黄生活片| 午夜影院小视频| 天天欲色成人综合网站| 中文字幕电影资源网站大全| 最近中文字幕国语免费高清6| 亚洲精品无码av人在线观看| 精品香蕉伊思人在线观看| 国产性生活大片| 91人人区免费区人人| 好吊操在线视频| 丰满多毛的大隂户毛茸茸| 最近中文字幕在线的mv视频| 亚洲欧美精品久久| 第九色区AV天堂| 国产gav成人免费播放视频| 麻豆麻豆必出精品入口| 国产精品高清在线观看93| bl道具play珠串震珠强迫| 成人区人妻精品一区二区不卡网站 | 免费看v片网站| 国产自产一c区| www.九色视频| 成人爽a毛片在线视频网站| 久久国产精品系列| 樱花www视频| 亚洲成人在线免费观看| 狠狠久久精品中文字幕无码| 午夜三级A三级三点在线观看| 色老二精品视频在线观看| 国产大片内射1区2区|