《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于深度學習的圖像風格化算法研究綜述
基于深度學習的圖像風格化算法研究綜述
2019年電子技術應用第7期
黃海新,梁志旭,張 東
沈陽理工大學 自動化與電氣工程學院,遼寧 沈陽110159
摘要: 隨著“人工智能”時代的到來,“深度學習”一詞也逐漸走進大眾的視野,一些基于深度學習神經網絡的圖像處理方法也隨之產生,圖像風格化作為其中一個重要的分支也獲得了廣泛的關注。目前,研究學者提出了很多基于深度學習的圖像風格化算法,而且都能較好地完成風格化任務。全面概述了深度學習在圖像風格化領域的進展,對比了不同算法之間的優劣,最后探討了當前基于深度學習的圖像風格化研究的局限性及未來的研究方向。
中圖分類號: TP391.41
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190060
中文引用格式: 黃海新,梁志旭,張東. 基于深度學習的圖像風格化算法研究綜述[J].電子技術應用,2019,45(7):27-31.
英文引用格式: Huang Haixin,Liang Zhixu,Zhang Dong. A survey of image stylization algorithms based on deep learning[J]. Application of Electronic Technique,2019,45(7):27-31.
A survey of image stylization algorithms based on deep learning
Huang Haixin,Liang Zhixu,Zhang Dong
College of Automation and Electrical Engineering,Shenyang Ligong University,Shenyang 110159,China
Abstract: With the advent of the “artificial intelligence” era, the term “deep learning” has gradually entered the public′s field of vision. Some image processing methods based on deep learning neural networks have also emerged. Image stylization as an important branch has also gained widespread attention. At present, researchers have proposed a lot of image stylization algorithms based on deep learning, and they can accomplish stylized tasks well. This paper comprehensively summarizes the progress of deep learning in the field of image stylization, compares the advantages and disadvantages of different algorithms, and finally discusses the limitations of current image stylization research based on deep learning and future research directions.
Key words : image stylization;deep learning;neural networks;image processing

0 引言

    圖像風格化是指通過一些算法,將一張具有藝術風格圖像的風格映射到其他自然圖像上,使原自然圖像保留原始語義內容的同時具備該藝術圖像的藝術風格。圖像風格化這一概念的提出是源于人們被某些藝術繪畫大師的藝術作品所吸引,渴望自己也能夠擁有同樣藝術風格的圖像,而重新繪制特殊風格的圖像則需要大量相關技術人員的投入和資源損耗,于是一些研究人員開始研究相應算法來完成圖像風格化任務。

    自20世紀90年代中期以來,人們相繼提出大量風格化算法,其中非真實感渲染[1]方法取得了較好的效果,但這種方法局限于僅能針對單一風格進行繪制,如果需要拓展到其他風格的轉換,則需要重新修改算法和參數。研究人員后來進一步將風格化問題轉化為風格圖像的紋理合成問題,將目標風格圖像的紋理特征信息映射到待風格化圖像中完成風格化任務。WANG B等[2]從風格圖像數據集中提取紋理信息,將紋理信息與被分割的原始圖像結合成新的風格化圖像。HERTZMANN A等[3]通過學習來自未經轉換的圖片和風格化圖像的示例對的類似變換來進行風格化任務。FRIGO O等[4]提出一種無監督的風格化方法,具體是對小圖像塊的分割和重構完成風格轉移。以上這些算法都是圖像風格化的傳統算法,傳統算法還有很多,但其最大的局限性就是僅僅使用了圖像低層次的特征,無法完美捕捉到圖像的結構分布,這就導致風格化效果不理想。

1 基于深度學習的圖像風格化算法

    深度學習對于計算機視覺方面良好的效果使得風格化研究人員不得不將目光轉移到它身上。隨著卷積神經網絡[5]的提出,圖像的高層次特征得以有效利用,傳統風格化算法的局限性得以消除,這吸引了大量的風格化研究人員。

    GATYS L A等開創性地利用卷積神經網絡進行風格化任務。他們在文獻[6]中首先利用卷積神經網絡進行圖像紋理合成的任務,從目標風格圖像中提取紋理。他們用Gram矩陣來表示紋理信息,Gram矩陣是預訓練分類網絡VGG的各過濾器激活值之間的相關系數,這種基于Gram矩陣的紋理表示方式有效地模擬了紋理的各種變化。他們初始化一張噪聲圖像,將噪聲圖像和待提取紋理的目標圖像都送入VGG網絡中,通過最小化噪聲圖像和目標圖像之間各層的Gram矩陣之間的差值作為損失函數對噪聲圖像的像素值進行優化,通過反復的優化迭代得到目標圖像的紋理,這是圖像的紋理也就是風格的提取過程。

    在后來的工作中,GATYS L A等人在紋理合成的基礎上通過引入目標內容圖像,修改了損失函數使算法同時針對風格和內容進行優化,滿足了保持目標語義內容不變同時的風格化任務,可以做到如圖1所示的風格化效果。此方法雖然能夠較好地完成圖像風格化的任務,但是其缺點也是很明顯的,由于優化需要較長的等待時間,因此在實時性這一方面此方法有很大的局限性。另外,由于卷積神經網絡不可避免地會丟失一些低級特征信息,因此GATYS L A等人的算法在風格化后的細節方面表現不佳且難以實現真實照片作為風格的轉換任務。

zs1-t1.gif

    針對GATYS L A等[7]的研究中關于實時性的問題,ULYANOV D等[8]和JOHNSON J等[9]都提出了相應的解決辦法。這兩種方法的原理相似,都是采用離線訓練的方式預先訓練一個風格轉換網絡,只不過采用不同的網絡結構,兩個網絡結構分別如圖2和圖3所示。這樣,當需要進行圖像風格化任務時,只需要將圖像送入轉換網絡中,即可立即獲得風格化后的圖像。但是,由于這兩種算法的核心思想是基于文獻[7]的算法,因此這兩種算法依舊面臨著GATYS L A等風格化后的局部細節方面表現不佳的問題。而且最大的局限性是預訓練的轉換網絡只能對一種風格進行訓練,如果想實現多個風格的轉換,需要為每種特定風格都訓練一個轉換網絡。

zs1-t2.gif

zs1-t3.gif

    除了Gram矩陣可用于表示紋理特征外,馬爾科夫隨機場(MRF)也是對圖像紋理特征建模的另一種方法。考慮到Gram矩陣的一些局限性,一些研究人員采用MRF的方法處理風格化問題。基于MRF的紋理建模表示方法假定在一個紋理圖像中,每個像素僅與其相鄰的像素有關,即每個像素完全由其空間鄰域表征。

    LI C和WAND M[10]認為GATYS L A等基于Gram矩陣的紋理表示方法僅考慮像素特征的相關性,沒有考慮空間結構,這導致了算法在真實圖像作為目標風格時不能很好地完成風格化任務。所以,他們提出了結合MRF和神經網絡的方法。具體原理與GATYS L A等的原理相似,不同點在于沒有利用特征圖之間的關系構成Gram矩陣,而是將特征圖生成了很多的局部圖像塊(local patch),利用MRF去尋找圖像塊與圖像塊之間關系的匹配,這樣能更好地保留像素局部的信息,可以完成真實照片作為目標風格圖像的風格化任務,如圖4所示。這種方法的缺點在于當內容圖像和風格圖像在結構上存在很大差異時,由于圖像塊之間難以匹配,可能導致風格化任務失敗。

zs1-t4.gif

    考慮到文獻[10]實時性的問題,LI C和WAND M又提出了一種離線訓練的方式完成風格化任務[11]。其核心思想依舊基于MRF,通過對抗性訓練一個前饋網絡來解決效率問題。同樣,這種基于MRF的方法有利于保留紋理像素的局部細節信息,所以對于復雜的紋理圖像,這種方法的風格化效果要比JOHNSON J等和ULYANOY D等要好。但是,由于算法對圖像語義內容和高層次特征上考慮的缺乏,因此對于非紋理圖像(如臉部)作為目標風格圖像時往往得不到很好的結果。

    以上算法的很大限制就是往往只針對單一風格進行風格化任務,若希望得到不同的風格化結果則需要多次運行算法或訓練多個風格轉換網絡。于是研究人員開始對如何一次完成多種風格的轉換任務這一問題進行研究。DUMOULIN V等[12]提出了一種基于條件實例規范化的方法去訓練一個多風格條件轉換網絡,具體做法是通過歸一化不同轉換參數的特征統計將內容圖像轉換為不同的風格,來實現通過調整不同的轉換參數來模擬不同的風格的目的。LI Y等[13]將初始化的噪聲圖像送入不同的子風格網絡中得到相應的風格特征編碼,然后結合內容特征編碼和風格特征編碼送入轉換網絡的上采樣部分完成風格轉換,不同的風格可以通過選擇單元進行選擇。ZHANG H和DANA K[14]將多種風格送入預訓練的VGG網絡中得到多尺度風格特征,然后將此風格特征與來自編碼器中的不同層的多尺度內容特征組合,通過其所提出的激勵層,實現多風格化。

    除了多風格轉換,一些研究人員還對任意風格的轉換進行了研究。HUANG X和BELONGIE S[15]提出了基于文獻[12]思想的另一種方法,他們將條件實例規范化修改為自適應實例歸一化,與DUMOULIN V等[12]不同的是他們采用的風格轉換網絡的下采樣部分包含了VGG網絡前幾層在內且參數固定,這樣得到的特征激活值經過自適應實例歸一化處理后上采樣重構后即可得到風格化后的圖像。此方法能夠完成實時的任意風格化處理,上采樣部分的網絡參數需要大量的風格圖像和內容圖像進行訓練。后來,LI Y等[16]又對HUANG X和BELONGIE S[15]的方法進行了改進,他們采用相同的網絡結構,只是用白化著色變換代替了自適應實例歸一化,這是因為白化變換可以去除風格相關信息并保留內容結構,這使得內容圖像的特征信息能夠較好地傳遞,然后通過著色變換將風格特征與內容結合后,經過上采樣重構圖像后得到的就是風格化后的圖像。

2 圖像風格化的拓展

    隨著圖像風格化技術的成熟,一些研究人員發現圖像風格化算法具備更廣泛的研究價值,可以拓展到其他相關應用,以下僅簡要介紹圖像風格化的幾個拓展方向。

2.1 視頻風格化

    視頻可以理解為一張張圖像經過連續化處理得到的,那么圖像的風格化任務就可以拓展到視頻風格化的領域來。需要注意的是,視頻風格化算法需要考慮相鄰視頻幀之間的平滑過渡。第一個視頻風格化算法由RUDER M等提出[17-18],他們使用光流法計算光流信息,并引入了時間一致性損失,他們的算法實現了平滑的視頻風格化結果。后來HUANG H等基于RUDER M等的思想提出一個離線訓練的視頻風格化模型[19],具體做法是將兩個連續的幀畫面送入風格轉換網絡中得到輸出,對輸出的結果直接計算時間一致性損失來約束兩幀之間的連續性。

2.2 人臉風格化

    盡管之前的算法都能夠實現風格化任務,但是由于沒有單獨考慮頭部特征導致難以實現單獨針對頭部的風格化效果。SELIM A等[20]在風格化過程中增加了增益圖對空間配置進行約束,這使得面部的結構特征在風格化過程中得以保留。ZHAO M T等[21]從由繪畫大師預先繪畫的肖像中提取筆觸信息,將筆觸信息傳遞給內容圖像實現人臉風格化方法。WANG N N等[22]采用MRF的方法實現人臉風格化,他們的方法可以從訓練數據集中為目標圖像匹配到最合適的特征信息完成風格化任務。

2.3 語義風格化

    語義風格化是假設有兩張圖像,兩張圖像有著相似的語義內容但不同的風格,希望將一張圖像的風格過渡到另一張圖像上。CHAMPANDARD A J[23]提出基于圖像塊匹配的算法[24]完成語義風格化任務。CHEN Y L和HSU C T[25]提出了一種不同的思路,他們約束空間對應關系及風格特征統計完成語義風格化。

3 存在問題及今后研究方向

    由于風格這一概念的模糊性,人們對于風格化圖片效果的評估往往都是基于主觀意識,風格化的好與壞完全由個人主觀評判。由于人與人之間主觀意識上的差異,導致對風格化結果的評判也各不相同。不同于分類任務[26],圖像風格化沒有一個預期的標準來對風格化結果進行評判,這是目前各種風格化算法普遍面臨的問題,如何找到一個標準的評估方法,將會是風格化領域內各研究人員今后的一個重要研究方向。

    雖然基于圖像優化的在線風格化算法(如GATYS L A等[7]和LI C、WAND M等[10])可以較好地完成圖像風格化的任務,但是此類方法由于需要在線優化,難以保證風格化的速度。離線訓練風格轉換網絡的方式(如ULYANOV D等[8]和JOHNSON J等[9])可以避免此類速度問題,但訓練一個單風格轉換網絡不夠靈活,因為多數情況下用戶需要多種風格化方式,而訓練一個多風格轉換網絡得到的效果卻又不如針對單一風格轉換網絡的效果好,所以如何提出一種同時滿足轉換速度和轉換效果的方法也是今后研究的一個重要方向。

4 結論

    本文主要介紹了基于深度學習的圖像風格化方法,并對相應算法的優缺點和今后的研究發展方向進行了簡要的分析。通過研究發現,盡管傳統方法能夠完成風格化任務,但是由于其局限性,不論是在合成速度方面還是圖像效果方面都不是很理想。隨著深度學習的介入,傳統處理圖像的方法得到了更好的發揮,圖像的特征信息也得到了充分利用,可以說神經網絡使人們對圖像風格化這一領域的研究向前邁了一大步。雖然目前圖像風格化領域有了一些進展,可以實現一些簡單的應用,但距離風格化技術的全面成熟仍需要不斷的發展改進。總而言之,圖像風格化作為一個具有廣泛商業用途,充滿吸引力和挑戰性的方向,有重要的研究意義等著研究人員去發展創新。

參考文獻

[1] GOOCH B,GOOCH A.Non-photorealistic rendering[M].Natick,MA,USA:A.K.Peters,Ltd.,2001.

[2] WANG B,WANG W P,YANG H P,et al.Efficient examplebased painting and synthesis of 2D directional texture[J].IEEE Transactions on Visualization and Computer Graphics,2004,10(3):266-277.

[3] HERTZMANN A,JACOBS C E,OLIVER N,et al.Image analogies[C].Proceedings of the 28th Annual Conference On Computer Graphics And Interactive Techniques.ACM,2001:327-340.

[4] FRIGO O,SABATER N,DELON J,et al.Split and match:Example-based adaptive patch sampling for unsupervised style transfer[C].IEEE Conference on Computer Vision and PatternRecognition,2016:2338-2351.

[5] 徐中輝,呂維帥.基于卷積神經網絡的圖像著色[J].電子技術應用,2018,44(10):19-22.

[6] GATYS L A,ECKER A S,BETHGE M.Texture synthesis using convolutional neural networks[C].International Conference on Neural Information Processing Systems.MIT Press,2015.

[7] GATYS L A,ECKER A S,BETHGE M.A neural algorithm of artistic style[J].arXiv:1508,06576[cs.CV].

[8] ULYANOV D,LEBEDEV V,VEDALDI A,et al.Texture networks:feed-forward synthesis of textures and stylized images[C].International Conference on Machine Learning,2016:1349-1357.

[9] JOHNSON J,ALAHI A,Li Feifei.Perceptual losses for real-time style transfer and super-resolution[C].European Conference on Computer Vision,2016:694-711.

[10] LI C,WAND M.Combining markov random fields and convolutional neural networks for image synthesis[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2479-2486.

[11] LI C,WAND M.Precomputed real-time texture synthesis with markovian generative adversarial networks[C].European Conference on Computer Vision,2016:702-716.

[12] DUMOULIN V,SHLENS J,KUDLUR M.A learned representation for artistic style[C].International Conference on Learning Representations,2017.

[13] LI Y,CHEN F,YANG J,et al.Diversified texture synthesis with feed-forward networks[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:3920-3928.

[14] ZHANG H,DANA K.Multi-style generative network for real-time transfer[J].arXiv:1703.06953.

[15] HUANG X,BELONGIE S.Arbitrary style transfer in real-time with adaptive instance normalization[C].Proceedings of the IEEE International Conference on Computer Vision,2017:1501-1510.

[16] LI Y,FANG C,YANG J,et al.Universal style transfer via feature transforms[C].Advances in Neural Information Processing Systems,2017:385-395.

[17] RUDER M,DOSOVITSKIY A,BROX T.Artistic style transfer for videos[C].German Conference on Pattern Recognition,2016:26-36.

[18] RUDER M,DOSOVITSKLY A,BROX T.Artistic style transfer for videos and spherical images[J].International Journal of Computer Vision,2018,126:1199.

[19] HUANG H,WANG H,LUO W,et al.Real-time neural style transfer for videos[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:783-791.

[20] SELIM A,ELGHARIB M,DOYLE L.Painting style transfer for head portraits using convolutional neural networks[J].ACM Transactions on Graphics,2016,35(4):129.

[21] ZHAO M T,ZHU S C.Portrait painting using active templates[C].ACM SIGG RAPH/Eurographics Symposium on Non-Photorealistic Animation and Rendering,2011:117-124.

[22] WANG N N,TAO D C,GAO X B,et al.Transductive face sketch-photo synthesis[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(9):1364-1376.

[23] CHAMPANDARD A J.Semantic style transfer and turning two-bit doodles into fine artworks[J].arXiv:1603:01768[cs.CV].

[24] LI C,WAND M.Combining markov random fields and convolutional neural networks for image synthesis[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2479-2486.

[25] CHEN Y L,HSU C T.Towards deep style transfer:A content-aware perspective[C].Proceedings of the British Machine Vision Conference,2016.

[26] 許少尉,陳思宇.基于深度學習的圖像分類方法[J].電子技術應用,2018,44(6):116-119.

[27] 鄧盈盈,唐帆,董未名.圖像藝術風格化的研究現狀[J].南京信息工程大學學報(自然科學版),2017(6):31-36.

[28] JING Y,YANG Y,FENG Z,et al.Neural style transfer:a review[J].arXiv:1705.04D58[cs.CV].



作者信息:

黃海新,梁志旭,張  東

(沈陽理工大學 自動化與電氣工程學院,遼寧 沈陽110159)

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产日产精品_国产精品毛片| 久久精品道一区二区三区| 中文字幕亚洲欧美一区| 男生gay私视频洗澡| 国精产品一区一区三区MBA下载 | 69av免费视频| 最新中文字幕一区| 国产中文字幕视频| chinese熟妇与小伙子mature| 欧美日本一道高清免费3区| 国产在线精品二区赵丽颖| 中国体育生gary飞机| 欧美破苞合集magnet| 国产小鲜肉男同志gay| 一级午夜免费视频| 欧美成人一区二区三区在线电影 | 中文字幕一二三四区| 浮力影院第一页 | 久久精品无码专区免费青青| 精品视频一区二区三区免费 | 妲己高h荡肉呻吟np| 亚洲免费观看视频| 胸大的姑娘动漫视频| 在线观看无码av网站永久免费| 亚洲aⅴ男人的天堂在线观看| 羞羞色在线观看| 国产香蕉在线视频一级毛片| 久久精品国产亚洲av麻豆色欲| 看免费毛片天天看| 国产成人精品啪免费视频| 一区二区高清视频在线观看| 欧美不卡一区二区三区免| 和前辈夫妇交换性3中文字幕| 777精品视频| 日本xxxx18护士| 亚洲第一极品精品无码久久| 风间由美性色一区二区三区| 天堂网在线资源www最新版| 久久精品欧美日韩精品| 男女国产一级毛片| 国产好吊妞视频在线观看|