文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.174811
中文引用格式: 馬曉虹,尹向雷. 基于相關濾波器的目標跟蹤方法綜述[J].電子技術應用,2018,44(6):3-7,14.
英文引用格式: Ma Xiaohong,Yin Xianglei. Method of object tracking based on correlation filters:a survey[J]. Application of Elec-
tronic Technique,2018,44(6):3-7,14.
0 引言
視覺跟蹤是計算機視覺中引人矚目且快速發展的領域,主要用于獲取運動目標的位置、姿態、軌跡等基本運動信息,是理解服務對象或對目標實施控制的前提和基礎。其涉及許多具有挑戰性的研究熱點并常和其他計算機視覺問題結合出現,如導航制導、事件檢測、行為識別、視頻監控、自動駕駛、移動機器人等[1-4]。雖然跟蹤方法取得了長足進展,但由于遮擋、目標的平面內/外旋轉、快速運動、模糊、光照及變形等因素的存在使其仍然是非常具有挑戰性的工作。
近年來,基于相關濾波器CF(Correlation Filter)的跟蹤方法得到了極大關注[5-9]。CF最大的優點是計算效率高,這歸結于其假設訓練數據的循環結構,因為目標和候選區域能在頻域進行表示并通過快速傅里葉變換(FFT)操作。Bolme[6]等首次將CF應用于跟蹤提出MOSSE算法,其利用FFT的快速性使跟蹤速度達到了600-700 fps。瑞典林雪平大學的Martin Danelljan在2016年ECCV上提出的相關濾波器跟蹤算法C-COT[7]取得了VOT2016競賽冠軍,2017年其提出的改進算法ECO[8]在取得非常好的精度和魯棒性的同時,顯著提高運算速度至C-COT的6倍之多。
基于CF的跟蹤算法如此優秀,已然成為研究熱點。近年和相關濾波有關的論文層出不窮,很有必要對這些論文及相關濾波的發展等進行一個歸納和總結,以推動該方向的發展。文獻[9]雖已做過綜述并取得了一定效果,但有兩點不足:(1)過多介紹現有幾種方法的具體細節,沒有對更多文獻進行對比分析;(2)缺乏對基于相關濾波器跟蹤方法的分類對比分析。基于此,本文的不同之處和特點在于:(1)分析更多更新的文獻,注重分析各文獻的特點及淵源;(2)對各文獻根據CF跟蹤方法的思路進行歸類分析,讓讀者更加清楚各文獻的初衷及問題所在。
本文首先給出了目標跟蹤和CF的基本知識,之后對CF方法在樸素階段、循環結構和核技巧、多特征通道、與深度特征的結合、尺度研究、邊界效應以及其他信息的利用方面進行了詳述,最后對基于CF方法的未來發展方向提出了幾點看法。
1 目標跟蹤及CF跟蹤思想
目標跟蹤可以被定義為:在第一幀中給出一個興趣目標(常用方框表示)前提下,在后續的每一幀中對該目標定位的任務。一般地,目標跟蹤可以分為生成式方法(Generative Method)、判別式方法(Discriminative Method)。生成方法的思路是,先提取目標特征學習出代表目標的外觀模型,通過它搜索圖像區域進行模式匹配,在圖像中找到和模型最匹配的區域,即為目標。判別式跟蹤方法將視覺目標跟蹤視為一個二分類問題,其基本思路是尋求跟蹤目標與背景間的決策邊界,這類方法也常被稱為基于檢測的跟蹤方法(Tracking by Detection)。判別式方法由于同時用到了前景和背景信息,近年顯示出非常出色的跟蹤性能。目前所有基于相關濾波器的算法都在判別式跟蹤方法的框架下建立的。
本文主要對和相關濾波器有關的文獻進行綜述,想對視覺跟蹤有全面了解的讀者可以參考文獻[9-12]。
和其他判別式方法類似,CF也需要一組訓練樣本以學習一個濾波器。在跟蹤中,第一幀中的圖像塊是唯一可用的樣本,跟蹤器常從離該圖像塊較近的區域收集正例,而從離其較遠的區域收集負例,計算復雜度會隨著訓練塊數目的增加而快速上升。而基于CF的跟蹤器通過循環移位收集稠密樣本,這種移位近似為平移,從而構建了一個具有很好特性的循環矩陣。
CF首先通過最小化嶺回歸問題,并依據MOSSE濾波原理[6]尋找一個濾波器,然后以此濾波器和下一幀中的各搜索窗進行相關運算,其中輸出值最大的搜索窗即為目標最佳位置,最后在下一幀中以線性插值方法對模型參數進行更新,以此循環操作,直至序列最后一幀。
2 基于CF跟蹤的發展
2.1 CF方法的開創
CF在計算機視覺中最初被用于眼睛跟蹤[13]和行人檢測[14],由于需要大量訓練數據,使得以往的CF在應用于跟蹤時因速度太慢而無法使用。2010年,Bolme[6]等提出一種新型相關濾波器MOSSE(Minimum Output Sum of Squared Error),首次將CF應用于跟蹤算法。該跟蹤器框架建立在頻域中,利用FFT的快速性使跟蹤速度達到了600-700 fps,顯著超過當時的先進算法(如表1所示),同時算法具有卓越性能,在CV界引起劇烈反響。
MOSSE的思想是,當初始化給定單幀后,其能產生一個穩定的相關濾波器,然后以自適應CF作為目標外觀模型,通過卷積來跟蹤。CF通過MOSSE算法顯示出巨大潛力,從此CF跟蹤算法得到矚目,大量基于CF的跟蹤算法相繼出現。
2.2 循環結構和核技巧
基于檢測的跟蹤需要大量樣本數據進行訓練,這導致計算負擔加重,和實時需求背道而馳。但限制樣本數量又會犧牲算法性能。為了加快訓練,此前基于CF的算法都采用稀疏采樣策略,在每幀中,數個同目標大小一樣的樣本在目標臨域內得到,樣本之間很高的重疊率使得數據具有很大冗余,而如果采用下采樣方法,會降低背景雜亂序列的跟蹤性能。牛津大學的Joao F.Henriques提出樣本之間潛在的結構信息并沒有被有效利用,他發現[15],當有數千個平移樣本時,數據矩陣是環狀的,其依據循環矩陣的理論提出一種CSK(Circulant Structure Tracker)跟蹤方法。CSK應用FFT達到非常快的學習和檢測功能的Fourier分析思想(不同于迭代思想),以包括高斯和多項式等多個類型的核得到訓練和檢測的閉環解。該算法只通過簡單幾行代碼就可以達到數百幀的運行速度,并且性能可媲美先進算法。
之后,Joao F.Henriques在CSK基礎上提出一個新的核化相關濾波器KCF(Kernelized Correlation Filter)[16],同時,應用線性核提出一個快速多通道擴展的線性相關濾波器DCF(Dual Correlation Filter)。利用KCF的優點執行分類器的訓練和候選樣本的檢測,再利用HOG特征達到精確、魯棒且快速的跟蹤效果。其精度和速度都超過了當時OTB50[17]上最好的Struck[18]算法。
這里要提到的一點是,文獻[16]中雖然加了核技巧的KCF各屬性的準確度都在DCF(沒有核技巧)之上,但其平均精度僅提高了0.4%,而速度卻降低了41%。Naiyan Wang等研究表明[19]當選擇的特征為弱特征時,不同的觀察模型確實影響著跟蹤性能,然而,當選擇的特征足夠強時,不同模型間的性能基本沒有差別(即使采用最簡單的觀察模型),即特征在跟蹤中起著重要作用。因此對于核技巧的使用是一個開放的課題。
2.3 尺度估計研究
CF方法因使用FFT使得跟蹤算法速度大大提高,但CF本身并不具備尺度估計能力。
文獻[20]提出一種新的魯棒尺度估計方法DSST(Discriminative Scale Space Tracker)。DSST使用HOG特征并在尺度金字塔表示基礎上學習判別CF(MOSSE)。使用一維濾波器只估計尺度,二維濾波器只判斷平移,三維濾波器窮舉尺度空間以定位目標。其將平移濾波器和尺度估計分開學習使得該算法可以和任何不具備尺度估計的跟蹤方法合作達到尺度估計,具有通用性。
文獻[21]在KCF方法的基礎上提出一種新型多特征集成尺度自適應核化相關濾波器跟蹤器SAMF(Scale Adaptive with Multiple Features tracker)。算法以不同尺度對目標采樣,并調整樣本大小為一個固定尺寸以和每幀中的傾斜模型進行比較。同時算法采用一個多特征集成策略,該策略使用原始像素、梯度特征HOG以及顏色特征CN以進一步增強跟蹤器處理復雜場景的能力。
對比DSST和SAMF方法可知[22],前者將跟蹤分成兩個問題看待,可以采用不同的方法和特征更加靈活,但需要額外訓練一個濾波器,每幀尺度檢測需要采樣33個圖像塊,分別計算特征,加窗,FFT,尺度濾波器還要額外訓練;SAMF只需要一個濾波器,不需要額外訓練和存儲,每個尺度檢測就一次提特征和FFT,但在圖像塊較大時計算量比DSST高。
文獻[23]提出一種自適應外觀且不易漂移的在線跟蹤器LCT(Long-term Correlation Tracking)。其將跟蹤任務分解為平移估計和尺度估計兩部分,其尺度估計應用HOG特征構建一個多尺度目標金字塔并窮盡搜索最優尺度。
常規金字塔尺度估計方法不得不包含幾十層塔,且必須在跟蹤前進行尺度估計。文獻[24]提出一種基于快速特征金字塔(Dollar的圖像尺度定律)的尺度估計方法。這應是首次利用真正的最小數量層特征金字塔并避免了在搜索合適尺度前構建金字塔,且優化的尺度估計具有通用性,可被用于任何不含尺度估計的跟蹤器中。
為解決旋轉運動跟蹤問題,文獻[25]提出RAJSSC(Rotation Adaptive Joint Scale-Spatial Correlation Tracking)跟蹤器算法。主要做了兩方面內容:(1)其以JSSC(Joint Scale-Spatial Correlation Tracking)濾波器進行尺度估計;(2)將笛卡爾坐標(Cartesian coordinator)變換成對數極坐標(Log-Polar coordinator)進行旋轉估計。
文獻[5]在KCF框架基礎上提出一種快速可伸縮核相關濾波器sKCF(scalable Kernalized Correlation Filter)。由于目標的方框表示不能匹配目標的確切結構,引入一個關鍵點模型進行尺度估計,該尺度估計具有獨立性,可集成到任何多項式以及線性CF中。
2.4 多特征通道思想
起初,CF方法受限于單通道特征。而任何特征都具有自己的區分能力,在跟蹤中常使用具有不同譜位置的特征互補合作,使用單核的相關濾波跟蹤算法不能充分發揮不同特征的區分能力。CF框架后來擴展到多通道特征圖[26-27],多通道CF使得高維特征應用以提高跟蹤性能成為可能。比如,顏色特征CN(Color Name)在某種程度上對光測不敏感,同時保持辨別能力,當和亮度結合時顏色特征能提高跟蹤性能。瑞典林雪平大學的Martin Danelljan以CN顏色特征擴展CSK為多通道顏色跟蹤器[28]。文獻[28]提出了一個低維自適應顏色屬性擴展,其應用映射原理將計算機中的RGB顏色映射為11維顏色表示的概率(概率總和為1),將這11中顏色規范化為10維正交基子空間,最后得到顏色特征。
此后CF框架下的多通道特征結合方法廣泛使用。Ming TANG等人在KCF算法的基礎上提出一種多核跟蹤器MKCF(Multi-Kernel Correlation Filter)[24],其能同時發揮多通道和多核作用。
利用HOG和CN具有的互補性質,文獻[29]提出一種簡單的跟蹤器Staple(Sum of Template And Pixel-wise LEarners),其在嶺回歸框架(ridge regression framework)下將這兩種具有補充特性的線索合并。和其他將多模型預測融合的方法不同,Staples在稠密平移搜索下合并兩個模型的得分,這兩個模型的一個關鍵特性是他們的得分在幅度和可靠性表示上相似,因此,預測具有更高可信度,取得了很好的實驗效果。此后HOG+CN在近兩年的跟蹤算法中成為了手工特征標配,如文獻[7-8]等。
2.5 與深度特征的結合
近年來,為提高跟蹤器的魯棒性能,許多特征被提出,如LBP、Haar-like、HOG、CN等,這些手工特征并非適應所有通用目標,因此常需要更復雜的學習技術來提高其表示能力。而深度學習技術不需要手工干預能從原始數據直接學習得到特征,由于具有強大的特征處理、表示學習性能,近期得到矚目關注,大量論文對深度學習進行探索并取得重要進展,如圖像分類、目標識別以及檢測和分割、跟蹤等。對于CF方法來說深度特征有著巨大吸引力。
隨著深度CNNs的到來,網絡的全連接層被用于圖像表示。不同于目標分類,視覺跟蹤的目的是精確及時的跟蹤目標,而不是要確定目標的語義類別[30]。
文獻[31]研究了卷積特征在DCF和SRDCF中的影響,結果顯示,不同于圖像分類,和在圖像分類方面表現出優秀性能的深層特征比較,來自第一層的激活提供了更好的跟蹤性能。對CF框架來說,關鍵的問題是如何將CNNs的多個層進行融合。文獻[7]提出C-COT(Continuous Convolution Operator Tracker)跟蹤器,其是一種在連續空間域學習一個判別式卷積算子的理論框架,該卷積算子在聯合學習框架下融合多個具有不同空間分辨率的卷基層。
2.6 邊界效應
這里不得不提CF方法對快速運動目標的跟蹤效果不好,這主要由邊界效應(Boundary Effets)引起的[32]。邊界效應產生錯誤樣本會造成分類器判別力不夠強,對跟蹤性能有嚴重影響,主要因為以下因素[33]:(1)從限定移位塊學習有可能導致濾波器訓練過擬合而對變形等泛化能力變差。(2)由移位產生的負例訓練樣本如果不加窗,則除了原始樣本,其他產生的樣本都是合成的,實際負例訓練樣本的缺乏會顯著降低跟蹤器對雜亂背景的魯棒性能。(3)從學習過程中丟棄背景信息會降低跟蹤器在遮擋下辨別目標的能力。
一種直觀的處理方法是加余弦窗,如文獻[6]為解決因FFT的循環結構引起的邊界效應,首先通過log函數將像素值轉換為對比度較輕的狀況,再以余弦窗和圖像相乘將邊界附近像素值逐漸減為零。但余弦窗具有局限性,如果目標變小,余弦窗會將背景信息加入到目標信號中,如果目標變大,余弦窗會丟掉目標部分信息,文獻[5]引入一個可以調節的高斯窗函數代替余弦窗,達到了很好的效果。
在檢測階段,相關濾波器訓練的圖像塊和檢測的圖像塊大小必須一致,對于固定的檢測塊,如果目標移到了邊界附近,加余弦窗后部分目標像素會丟失,使檢測響應受到影響。如果目標大部分或者完全移出邊界,則會導致檢測失敗。如果采用更大區域采集訓練樣本的措施不但能顯著降低邊界效應,而且更多數量的背景塊可用于濾波器學習[32-33]。文獻[33]提出基于灰度特征MOSSE的CFLB(Correlation Filters with Limited Boundaries)方法,采用更大的檢測和更新圖像塊,訓練作用域比較小的相關濾波器,對充濾波器邊緣直接用0填充,應用ADMM(Alternating Direction Method of Multipliers)確保正確的濾波器大小。CFLB的不足是在每次ADMM迭代時空域和頻域就有一次轉換,這導致計算復雜度變大。
不同于CFLB,文獻[32]提出了空間正則化判別相關濾波器SRDCF(Spatially Regularized Discriminative Correlation Filters)來進行跟蹤,主要思路是既然邊界效應發生在邊界附近,那就忽略所有移位樣本的邊界部分像素,濾波器系數從中心到邊緣平滑過渡到零。其學習過程中引入一個空間正則化成分,根據空間位置用其對相關濾波器的系數進行懲罰,SRDCF框架允許相關濾波器在不影響正例的情況下對相當數量的負例進行學習。雖然SRDCF方法在普通桌面電腦的MATLAB上運行的速率只有5幀/秒,但其精度較高并能處理快速移動的目標,且該方法獲得了當年OpenCV跟蹤挑戰賽的冠軍。SRDCF的主要不足是,正則化目標函數即便是在傅氏域中也會使優化難度加大,再者,為得到正則化權值,大量參數必須謹慎調節,否則會導致跟蹤性能惡化。
為利用實際負例訓練樣本以符合實際,文獻[34]提出BACF(Background-Aware Correlation Filters)方法,為實時目標跟蹤學習背景信息。和常規CF跟蹤器不同,BACF從背景中稠密抽取的實際負例訓練樣本進行學習,并以ADMM(Alternating Direction Method of Multipliers)方法在多通道特征(如HOG)上學習濾波器。該算法在PC上的運行速度達到了35 fps,精度比SRDCF高,且速度是其10倍。和C-COT精度相當,但速度是C-COT的100倍,在某些特殊序列上可以達到C-COT的400倍。
2.7 其他信息的利用
除過上述常見問題及處理方式外,為提高CF方法的性能,廣大學者也從其他信息的利用方面進行了探索使基于CF方法的性能得到了進一步的提升。主要包括:
(1)上下文的利用。文獻[35]提出STC(Spatio-Temporal Context)跟蹤算法,在目標框周圍使用一個較大的框以包括目標周圍的背景信息,利用稠密的上下文信息達到快速魯棒的跟蹤效果(350 fps in Matlab)。該方法一方面包括目標和相鄰背景的上下文具有判別模型特征,另一方面,目標和背景是一個整體,體現了生成方法的優點。
(2)長短時記憶跟蹤。為應對跟蹤過程中的目標外觀變化,文獻[36]提出一種跟蹤器MUSTer(MUlti-Store Tracker)。其包含短時和長時兩種記憶存儲以配合處理圖像輸入和目標跟蹤,其在短期存儲和短時跟蹤中應用高效的ICF(Intergrated Correlation Filter);作為補充,基于關鍵點匹配跟蹤以及RANSAC估計形成的長時部分能影響長時記憶并為輸出提供附加信息;另外,在跟蹤過程中以遺忘曲線對記憶-遺忘循環進行建模并保留有用特征。
(3)空間結構信息的利用。文獻[37]提出將目標分成5個部分,對各部分分別運行一個獨立的KCF跟蹤器并輸出一個置信圖(Confidence Map)以聯合定位目標。然后多個置信圖合并成一個置信圖作為一個整體應用于貝葉斯推理框架,推理候選目標以最大后驗概率作為跟蹤結果。針對遮擋及魯棒跟蹤文獻[38]提出一種SCF(Structural Correlation Filter)跟蹤器。其首先將目標劃分為一組塊,每個塊關聯一個CF,對所有塊的參數結合學習;在跟蹤過程中,每部分的CF有一個響應圖(response map),通過搜索響應圖中的最大值能協助預測塊的狀態(位置);然后,目標的位置通過所有塊的權值化平移平均來估計。
3 總結及展望
視覺跟蹤對算法的要求是具有精確性、魯棒性、通用性以及實時性。為此,除了從特征學習、外觀表示、高效搜索以及更新策略等方面研究外,筆者認為從以下幾個方向切入有助于提高算法性能。
(1)CF最大缺點是對快速變形和快速運動的目標跟蹤性能較差,影響這方面的因素主要是邊界效應,邊界效應的有效解決也是一個切入點。
(2)CF有嚴格的移位假設,這種假設常常不符合實際場景。如在能放寬這種假設的同時處理好相關濾波器的要求,將使跟蹤更符合實際應用。
(3)CF方法在精度及魯棒性提高的同時,常常因為模型復雜等原因使得速度嚴重降低,這不符合跟蹤的實時要求。這可從降低模型復雜度以及優化學習及更新機制方面入手解決。
(4)目前提到的很多CF算法,也包括VOT競賽,都是針對短期跟蹤問題。但在實際應用場合,我們希望達到長期跟蹤目的,但除了文獻[39]外,很少見到此方面的研究工作。
目標跟蹤是計算機視覺方向的一個熱點,每年都有大量優秀論文出現,作者所作的綜述也只是管中窺豹,疏漏不可避免,但如能起到拋磚引玉的目的,對讀者和作者來說都是一種幸事。
參考文獻
[1] 王夢來,李想,陳奇,等.基于CNN的監控視頻事件檢測[J].自動化學報,2016,42(6):892-903.
[2] 劉亞偉,李小民,楊森.基于CamShift融合局部特征匹配的無人機目標跟蹤研究[J].電子技術應用,2016,42(9):6-9.
[3] 張鐵,馬瓊雄.人機交互中的人體目標跟蹤算法[J].上海交通大學學報,2015,49(8):1213-1219,1230.
[4] 周楊,胡桂明,黃東芳.基于邊緣自適應的Mean Shift目標跟蹤方法[J].電子技術應用,2017,43(5):138-142.
[5] MONTERO A S,Lang Jochen,LAGANIERE R.Scalable kernel correlation filter with sparse feature integration[C].InIEEE ICCV,2015.
[6] BOLME D S,BEVERIDGE J R,DRAPER B A,et al.Visual object tracking using adaptive correlation filters[C].In IEEE CVPR,2010.
[7] DANELLJAN M,ROBINSON A,KHAN F S,et al.Beyond correlation filters: learning continuous convolution operators for visual tracking[C].In IEEE ECCV,2016.
[8] DANELLJAN M,BHAT G,KHAN F S, et al.ECO:Efficient Convolution Operators for Tracking[C].In IEEE CVPR,2017.
[9] 魏全祿,老松楊,白亮.基于相關濾波器的視覺目標跟蹤綜述[J].計算機科學,2016,43(11):1-5,18.
[10] YILMAZ A,JAVED O,SHAH M.Object tracking:A survey[J].ACM Computing Surveys,2006,38(4).
[11] LI X,HU W,SHEN C,et al.A survey of appearance models in visual object tracking[C].ACM TIST,2013,4(4):58.
[12] SMEULDERS A W M,CHU D M,CUCCHIARA R,et al.Visual tracking: An experimental survey[J].IEEE TPAMI,2014,36(7):1442-1468.
[13] BOLME D S,DRAPER B A,BEVERIDGE J R.Average of synthetic exact filters[C].In CVPR,2009.
[14] BOLME D S,LUI Y M,DRAPER B A,et al.Simple real-time human detection using a single correlation filter[C].In PETS,2009.
[15] HENRIQUES J F,CASEIRO R,MARTINS P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[C].In IEEE ECCV,2012.
[16] HENRIQUES J F,CASEIRO R,MARTINS P,et al.High-speed tracking with kernelized correlation filters[C].IEEE TPAMI,2015.
[17] WU Y,LIM J,YANG M H.Online object tracking:A benchmark[C].In IEEE CVPR,2013.
文獻[18]-[43]略
作者信息:
馬曉虹1,尹向雷2
(1.陜西理工大學 電工電子實驗中心,陜西 漢中723000;2.陜西理工大學 電氣工程學院,陜西 漢中723000)