摘 要: 在分析圖像中字符特點的基礎上,研究其在小波變換域中的特征,依據這些特征,分析頻率加權閾值法和利用塊間信息的平均閾值法的優缺點,將二者結合進行圖像字符定位。實驗表明,該算法可進行圖像中的字符定位,同時又可以彌補兩種方法定位時的不足。
關鍵詞: 字符定位; 小波變換; 加權系數
隨著計算機性能的提升和數字化存儲技術的不斷發展,從海量的視頻資料中找到想要的信息已經成為十分迫切的需求,所以對視頻內容的分析、建立基于內容的索引以及視頻內容的結構化描述成為近年來研究的熱點。字符的分析與處理是視頻分析的重要內容,進行圖像字符分析處理的基礎就是探測圖像中字符的出現及定位其準確坐標。
目前對圖像中的字符定位方法大致可以分為兩大類:一類是在原像素域內的處理方法[1-2] ,其主要是根據字符的紋理特征或結構特征來定位字符;另一類是基于壓縮域的處理方法[3-5],主要是DCT變換域和小波域,主要依據字符的筆劃邊緣在頻域中表現較大的系數和方向性,利用這些系數來進行字符定位。在壓縮域中,這些方法能夠充分利用圖像中的字符在頻率變換域中的特點,且只需要進行簡單的解碼,其處理的速度較快,具有較高的正確檢測率,是目前研究的熱點。參考文獻[6]提出了小波變換域的圖像字符定位方法,并通過對大量圖像字符定位的研究表明,該方法適應性強, 但處理背景復雜的圖像效果稍微差一些。而參考文獻[7]在定位時采用加權頻率的方法,在對背景復雜度高的圖片進行定位時有較好的效果,但是該方法處理一些較小的英文字符時漏檢較多。本文在分析參考文獻[6-7]的基礎上,先對小波變換系數進行非線性加權,然后再采用自適應動態閾值及結合塊間信息來提高檢測的正確率及算法的適應性。
1 小波變換域能量表征及分類
字符可能出現在圖像和視頻中的任何地方,但并不是所有出現的字符對視頻和圖像都有內容上的相關。 將視頻中出現的字符分為人工字符和背景字符兩類[1]。人工字符本身有特定的筆劃結構,在空間上表示為水平、豎直以及對角線方向的筆劃。字符灰度變化不大,但邊緣變化較大,有突出的水平、豎直以及斜向的紋理特征。本文主要研究人工字符定位,利用人工字符的這些特征可以將字符區間和背景分開,對字符進行定位。
對圖像信號進行小波變換,可以將其分解為平均部分、垂直細節部分、水平細節部分以及對角線細節部分,這些剛好對應于圖像中字符的筆劃特點。在小波變換域上進行字符定位的主要步驟就是給出標志字符中筆劃走向對應的頻率變化的能量。設圖像f(i,j)經小波變換后對應的小波系數為C(i,j),如圖1所示。
3 實驗結果及討論
實驗中選擇的圖像分別來自視頻截圖以及Web圖像等,水平和豎直方向的實驗參數k取0.2~0.23之間的值效果較好,對角線方向k取0.13效果較好。三種方法的檢測率比較結果如表1所示。
部分實驗定位效果如圖6所示, 實驗中選擇的圖像共包含360 個字符區,其中實際檢測到的字符區332個,正確檢測率為92.5%;未檢測到的字符區28個,漏檢率為5.8%;檢測到的錯誤字符區49個,錯誤檢測率為13.7%。參考文獻[6]的方法主要針對背景復雜的圖像,采用平均能量的方法使字符區間的能量削弱了,從而產生誤檢。參考文獻[6]的誤檢主要來自于背景復雜度較高的圖像,而其在定位時,小于8像素的英文字符在定位過程中會被誤認為是噪點刪除;在圖像中出現多個英文字符區域時,該算法優先選擇了斜向能量較大的幾個字符區域,一些字符區域被視為背景,造成漏檢。
改進后的方法對小波系數進行了非線性加權,然后進行塊間能量平均,在背景復雜度較高的圖像處理上,該方法定位效果比較好;在處理一些包含多字符區域的圖像或者包含低于8像素的英文字符區域時,該方法能很好地完成定位。從實驗結果來看,對于尺寸很大或者字符間隙很大的字符還是沒能很好地定位。當一些非文本區域具有與文本相似的紋理時,本算法會產生虛警,文本定位的效果不好。這些壓縮域字符定位的通病,也是今后著重研究的問題。
本文提出了一種改進的小波變換域的圖像中字符定位的方法,該方法在充分利用字符筆劃在小波變換域中的特點的基礎上,對小波系數進行加權,突出了字符區間的能量。算法實現簡單,具有較強的適應性。實驗結果表明,本文算法具有較高的正確檢測率,總體而言,相對于視頻、圖像上人工字符定位來說,效果還是比較理想的。今后要進一步研究字符分割及識別技術。
參考文獻
[1] 王辰, 松楊,胡曉峰. 視頻中的文字探測[J]. 小型微型計算機系統,2002,23(4):478-481.
[2] WU V, MANMATHA R, RISEMAN E M. An automatic system to detect and recognize text in images[C]. IEEE Transaction on Pattern Analysis and Machine Intelligence 1999:6.
[3] ZHONG Y, HANG H J, JAIN A K. Automatic caption localization in compressed video[C]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000:8.
[4] 黃祥林,沈蘭蓀. 基于DCT 壓縮域的圖像字符定位[J]. 中國圖像圖形學報, 2002,7(001):22-26.
[5] 黃曉東,周源華. 用小波變換及顏色聚類提取的視頻圖像內中文字幕[J]. 計算機工程, 2003(1):43-44.
[6] 張二虎,張緒進,張志剛. 小波變換域中圖像字符的定位提取方法[J]. 應用科學學報, 2006(2):135-139.
[7] 孫惠平,劉黨輝,沈蘭蓀.基于DCT壓縮域的快速字符定位算法研究[J].電子學報,2006(4):751-754.