杜麟,田暢,吳澤民,張兆豐,胡磊,張磊
(中國人民解放軍理工大學 通信工程學院,江蘇 南京 210007)
摘要:編碼后的視頻流經過封裝形成數據包,并通過網絡傳輸至接收端。在傳輸過程中視頻序列的質量受到網絡狀態的影響,當網絡出現劇烈的抖動或不穩定現象時,不可避免地會發生數據包的丟失,從而造成視頻質量的損傷。利用面向主觀感知的視頻質量評價指標對視頻序列幀的重要性進行分析,從而定義視頻序列不同類型幀的重要性級別。通過實驗發現,從面向主觀感知的角度,P幀的重要性大于I幀,I幀的重要性又大于B幀。得到的重要性等級可以為不等差錯保護以及丟幀選擇提供依據。
關鍵詞:網絡丟包;面向主觀感知;視頻序列幀;重要性分析
中圖分類號:TN919.85文獻標識碼:ADOI: 10.19358/j.issn.1674-7720.2017.10.014
引用格式:杜麟,田暢,吳澤民,等.面向主觀感知的視頻序列幀的重要性分析[J].微型機與應用,2017,36(10):48-50,53.
0引言
*基金項目:國家自然科學基金(61501509)
無線網絡以其覆蓋范圍廣、使用方便等優點迅速成為了重要的通信方式,但是無線網絡具有不穩定的特性,當網絡出現劇烈抖動時,容易造成數據包的丟失從而造成傳輸過程中視頻質量的損傷。為了保障接收端的視頻服務質量,通常采用有效的信道編碼方法使得編碼后的數據流具有一定的糾錯和抗干擾的能力。然而視頻流中的數據具有不同重要性,有的數據丟失會造成錯誤的擴散,而有的數據丟失后對視頻質量幾乎沒有影響,因此提出了不等差錯保護(Unequal Error Protection,UEP)方法,按照數據的重要性等級采用不同程度的保護,從而保障傳輸后的視頻質量。同時當網絡出現擁塞時也能夠按照重要性等級進行丟棄策略的選擇,通過丟棄重要性級別低的數據包來盡可能地保障接收端視頻的質量。H.264/AVC視頻編碼標準中將圖像的幀分為三種類型進行編碼,并將編碼后的視頻流封裝成數據包進行傳輸,在現有的視頻數據包重要性度量方法中,大多是將一幀圖像封裝成一個數據包,因此,對網絡數據包的重要性研究轉化為視頻序列幀的重要性研究。
近年來,一系列面向主觀的視頻質量評價方法被提出,如PDMOSCL[1]、QSTAR[2]、VIIDEO[34]、SSEQ[56]、FRIQUEE[78]等,其中,PDMOSCL模型分別研究了編碼以及傳輸之后視頻質量MOS的下降,從而提出了PDMOSC和PDMOSL模型,并聯合得到整個傳輸過程的模型PDMOSCL。QSTAR模型則重點研究了量化步長、幀率以及分辨率等編碼參數對視頻質量的影響,但僅適用于編碼端。VIIDEO、SSEQ以及FRIQUEE則屬于盲參考算法,其中,VIIDEO是視頻級的算法,而SSEQ和FRIQUEE是圖像級的算法,通過計算視頻序列每一幀圖像的評價結果并取所有幀的平均值作為整段視頻序列的質量。盲參考算法適用于實際的網絡環境,但是這幾類算法僅僅適用于特定的視頻庫,對于其他的視頻序列計算效果較差。因此本文采用面向主觀感知的視頻質量評價模型PDMOSL作為評價指標,計算不同類型的幀丟失后視頻序列的質量,從而得到不同類型的幀面向主觀感知的重要性等級。
1視頻序列的幀
為了進行數據的壓縮,在H.264/AVC視頻編碼標準中存在兩種預測模式:幀內預測和幀間預測。幀內預測通過本幀中相鄰的像素值進行預測,而幀間預測則通過運動估計和運動補償在已編碼的幀中尋找最優的塊進行預測。同時H.264/AVC視頻編碼標準中將圖像的幀分為三種類型,分別是I幀、P幀和B幀。I幀采用幀內預測的方式,不參考任何幀進行編碼;P幀為前向預測編碼,參考的幀可以是I幀和已經編碼的P幀,并按照編碼的順序進行播放;B幀采用雙向預測編碼,可參考在其播放順序之前的I幀和P幀,B幀一般不具有參考性。I、P、B幀的編碼參考關系如圖1所示,其中箭頭方向表示參考方向。因此,在H.264/AVC視頻流中,I幀的錯誤會造成參考它而生成的P幀和B幀的錯誤,而P幀的錯誤會造成參考它而生成的P幀和B幀的錯誤,B幀的錯誤則不會影響到其他幀。
由于參考幀的誤差而造成后續編碼幀的誤差,這種現象被稱為錯誤擴散。為了解決錯誤擴散所造成的視頻質量下降的問題,H.264/AVC視頻編碼標準中采用了兩種基本的手段,一是在編碼時引入了GOP的概念,將視頻序列以GOP為單位進行編碼,每一個GOP中的第一幀均為采用幀內預測的方式生成的I幀,然后參考此I幀生成若干個P幀,B幀則參考I幀和P幀生成,整個視頻流的結構如圖2所示。各個GOP之間是相互獨立的,因此,無論是I幀還是P幀的錯誤均不會擴散到下一個GOP,從而有效阻止了錯誤的繼續擴散。
另一種手段是在接收端采用錯誤隱藏機制。在每幀圖像解碼之后對解碼圖像進行檢測,如果發現圖中包含了錯誤信息,則調用錯誤隱藏機制,利用視頻數據在空域和時域上的相關性,用已經解碼出的正確信息來修復丟失或出錯的信息。簡單的錯誤隱藏方法直接拷貝前一幀中相同位置的宏塊進行隱藏,但此方法只適用于運動緩慢、場景簡單的視頻序列,此類視頻序列相鄰兩幀之間內容差別小,具有很強的連貫性;而對于運動劇烈、場景復雜的視頻序列,相鄰兩幀之間內容差別大,具有很強的運動性,采用直接拷貝的方法得到的效果不佳。直接拷貝的好處是計算簡單、易于實現,因此常用于實際的網絡環境中。為了提高錯誤隱藏的效果,先進的算法則需要通過運動估計在已解碼的視頻幀中尋找最佳匹配的塊來進行隱藏。
2面向主觀的評價指標
本文采用文獻[1]中提出的全參考算法PDMOSL作為視頻質量評價指標,該算法從丟包的長度、丟包的劇烈程度、丟包的數量以及丟包模式等多個方面出發,研究了丟包對視頻主觀感知質量造成的影響,并提出了一種基于PSNR下降的全參考視頻質量評價指標PDMOSL。在該評價指標中引入了人眼視覺注意機制、遺忘效應以及丟包聚散程度的影響,PDMOSL的計算表達式如式(1)所示。
實驗中首先得到不同丟包條件下損傷的視頻序列,并對視頻序列進行主觀打分,將主觀得分作為視頻序列的真實評價指標。通過研究視頻質量PSNR的下降與主觀得分MOS之間的關系從而提出了人眼視覺注意機制α(PD),α(PD)的計算表達式如式(2)所示。α(PD)表明在丟包網絡環境下,因為丟包所造成視頻質量PSNR的下降低于最低門限值即PDmin時并不會引起人眼視覺的變化,從而主觀得分沒有變化;當視頻質量PSNR的下降超過最大門限值即PDmax時,此時視頻損傷十分嚴重以至于影響人眼的感知,所以此時的主觀得分也保持不變。
不同的丟包數量、丟包模式均會影響到視頻質量的評價,通過分析不同的丟包位置和丟包模式與主觀得分MOS之間的關系,提出了遺忘效應以及丟包聚散程度CD。將遺忘因子定義為e-rDi,其中,r為常數,通過實驗擬合得出r=0.015;Di表示連續丟幀的最后一幀到視頻序列結尾的距離。遺忘效應考慮了丟包發生的位置對人眼視覺感知的影響,在評價整段視頻序列時,越早時間的丟包(即丟包位置靠前)越容易造成“遺忘”的效應,在主觀評價時容易忽略這部分丟包所造成的影響;而越晚時間的丟包(即丟包位置靠后)越容易給人留下深刻的影響,這部分丟包影響了整段視頻序列的評價結果。丟包聚散程度CD則反映了丟包的密集程度,計算表達式如下:
CD=e-cLloss(1-e-kN)(3)
其中,c和k為固定值,實驗中分別設置為c=0.002,k=0.8;Lloss表示從第一個丟失的幀到最后一個丟失的幀之間的距離;N表示連續丟包的個數。CD越大表明丟包越密集,受影響的幀相對集中,錯誤擴散的范圍較小,對視頻序列的評價也較小;CD越小表明丟包越分散,受影響的幀分布越廣,導致錯誤擴散的范圍越廣,從而使得整段視頻序列質量下降。
3面向主觀的視頻序列幀的重要性
實驗選取標準庫中的akiyo和city兩個視頻序列進行測試,其中,akiyo為運動平緩、場景簡單的視頻序列,而city則為運動劇烈、場景復雜的視頻序列。編碼時兩個視頻序列采用相同的編碼設置:QP為28,幀率為30 f/s,分辨率為352×288,編碼幀數為500幀。為了防止錯誤擴散,編碼時GOP長度為16,結構為IPBBBBPBBBBPBBBB,此時I、P、B幀的數量分別為32、94和374。在編碼過程中不采用分片技術,將一幀圖像封裝成一個數據包進行傳輸,數據包的丟失即代表一幀圖像的丟失,在錯誤隱藏時采用直接拷貝前一幀的方式進行隱藏。對三種類型的幀分別進行丟包測試,丟包率設置為0、0.05、0.10、0.15和0.20,在丟包時不考慮第一個GOP內視頻幀的丟棄,采用隨機丟包程序進行仿真,由于丟包的隨機性,每種丟包率進行十次仿真,并取十次仿真的平均值作為實驗結果,實驗結果如圖3所示。
從圖3的實驗結果可以發現不同類型的幀丟失后采用不同的評價指標定義的重要性所得到的結果也不相同。基于PSNR指標,視頻序列幀的重要性等級如下:IP>IB>II;基于PDMOSL指標,此時視頻序列幀的重要性等級如下:IP>II>IB。因此,基于兩種評價指標獲得的幀重要性等級不一致。分析其原因,采用PSNR作為評價指標時,需要逐一對比原始視頻與測試視頻的每一幀。I幀雖然具有最高的參考性,但I幀的數量較少,在相同的丟包率條件下,P幀丟失的數量大于I幀丟失的數量,使得更多的GOP受到影響,因此P幀的重要性大于I幀。同時,由于視頻序列的連續性,幀與幀之間具有很強的聯系,因此,當I幀丟失之后拷貝前一幀進行補償,此時產生的誤差較小,對后續參考此I幀生成的P幀、B幀影響較小。而B幀的數量巨大,很容易產生連續的丟幀,錯誤隱藏之后導致連續的幀均拷貝于同一幀,在計算PSNR時,下降更為明顯。在PDMOSL指標中考慮了人眼視覺注意機制,只有超過連續丟幀的最小門限才會引起人眼的注意,并且只有PSNR的下降超過一定閾值時才會造成人眼視覺的差異,此時,B幀的丟失幾乎不會造成影響,與B幀的參考性等級相一致。
4結論
網絡視頻應用越來越普及,用戶對視頻質量的要求也越來越高,單純從視頻序列出發,保障傳輸數據包的正確性并不能保證用戶實際感知到的視頻質量,隨著對主觀感知以及人眼視覺的不斷研究,基于主觀感知的視頻質量傳輸保障成為了當下的熱點。為了提高接收端用戶的QoS,本文對不同類型的幀進行面向主觀的重要性分析,分別對I、P、B三種類型的幀進行丟包實驗,并利用面向主觀的視頻質量評價模型PDMOSL作為評價指標,從而得出了不用類型幀的重要性級別。得到的視頻序列幀的重要性等級可為不等錯差保護以及丟幀選擇策略提供依據。
相比于傳統的視頻序列幀的重要性分析,本文從面向主觀的角度出發,更加符合人眼的實際情況,但在丟包網絡中影響視頻質量的因素還有很多,包括編碼的參數,如QP、幀率、GOP大小等,因此,還需要進一步的分析研究。
參考文獻
[1] Liu Tao, Wang Yao, BOYCE J M, et al. A novel video quality metric for low bitrate video considering both coding and packetloss artifacts[J]. IEEE Journal of Selected Topics in Signal Processing, 2009, 3(2): 280-293.
[2] OU Y F, Xue Yuanyi, Wang Yao. QSTAR: a perceptual video quality model considering impact of spatial, temporal, and amplitude resolutions.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2014, 23(6):2473-86.
[3] MITTAL A, SAAD M A, BOVIK A C. A completely blind video integrity oracle[J]. IEEE Transactions on Image Processing, 2016, 25(1): 289-300.