簡介 與
MPEG-1 和
MPEG-2 相比,
MPEG-4 的特點是其更適於互動AV服務以及
遠程監控 。
MPEG-4 是第一個使你由被動變為主動(不再只是觀看,允許你加入其中,即有
互動性 )的動態
圖像 標準,它的另一個特點是其綜合性。從
根源 上說,MPEG-4試圖將
自然物體 與人造物體相溶合(視覺效果意義上的)。MPEG-4的設計目標還有更廣的適應性和更靈活的可擴展性。
MPEG全稱是Moving Pictures Experts Group,它是“動態圖象專家組”的英文縮寫,該專家組成立於1988年,致力於
運動圖像 及其伴音的壓縮
編碼 標準化工作,原先他們打算開發MPEG1、MPEG2、MPEG3和MPEG4四個版本,以適用於不同頻寬和數字
影像 質量的要求。
目前,MPEG1技術被廣泛的套用於VCD,而MPEG2標準則用於廣播電視和DVD等。MPEG3最初是為HDTV開發的
編碼 和壓縮標準,但由於MPEG2的出色性能表現, MPEG3隻能是死於襁褓了。而我們
今天 要談論的主角——MPEG4於1999年初正式成為國際標準。它是一個適用於低
傳輸速率 套用的方案。與MPEG1和MPEG2相比,MPEG4更加注重
多媒體系統 的互動性和靈活性。下面就讓我們一起進入多彩的MPEG4
世界 。
MPEG-4 電子產品(高清數字機頂盒) 標準 MPEG-4標準目前分為27個部分,統稱為ISO/IEC14496國際標準。各部分的內容描述如下:
第一部分(ISO/IEC 14496-1),系統:描述
視頻 和音頻
數據流 的控制、同步以及混合方式(Multiplexing, MUX)。
第二部分(ISO/IEC 14496-2),
視頻 :定義了對各類視覺信息(包括自然視頻、靜止紋理、計算機合成圖形等等)的
編解碼器 。該部分採用了國際電聯ITU的技術建議H.263,故業界亦稱該部分為H.263。
第三部分(ISO/IEC 14496-3),音頻:定義了對各種
音頻信號 進行
編碼 的
編解碼器 的集合,包括AAC(Advanced Audio Coding)。
第四部分(ISO/IEC 14496-4),一致性:定義了對本標準其他的部分進行一致性測試方法。
第五部分(ISO/IEC 14496-5),參考軟體:提供了用於功能演示的軟體。
第六部分(ISO/IEC 14496-6),
多媒體 傳輸集成框架。
第七部分(ISO/IEC 14496-7),最佳化的參考軟體:在第五部分的基礎上提供了最佳化示例。
第八部分(ISO/IEC 14496-8),IP
網路傳輸 :定義了在IP網路上傳輸MPEG-4內容的格式。
第九部分(ISO/IEC 14496-9),參考硬體:提供了用於實現本標準功能的硬體設計方案。
第十部分(ISO/IEC 14496-10),高級
視頻 編碼 AVC(Advanced Video Coding):定義了更高級的
視頻編解碼器 。該部分採用了國際電聯ITU的技術建議H.264,故業界亦稱該部分為H.264。
第十一部分(ISO/IEC 14496-11),場景描述與套用引擎。
第十二部分(ISO/IEC 14496-12),基本媒體檔案格式。
第十三部分(ISO/IEC 14496-13),
智慧財產權 管理和保護的拓展。
第十四部分(ISO/IEC 14496-14),
視頻檔案格式 :在第十二部分的基礎上定義了視頻內容的存儲格式。
第十五部分(ISO/IEC 14496-15),AVC檔案格式:在第十二部分的基礎上定義了AVC
視頻 內容的存儲格式。
第十六部分(ISO/IEC 14496-16),動畫
框架 擴展。
第十七部分(ISO/IEC 14496-17),同步文本字幕格式。
第十八部分(ISO/IEC 14496-18),字型壓縮和流媒體傳輸。
第十九部分(ISO/IEC 14496-19),合成信息流。
第二十部分(ISO/IEC 14496-20),簡單場景描述。
第二十一部分(ISO/IEC 14496-21),用於渲染的MPEG-J拓展。
第二十二部分(ISO/IEC 14496-22),開放字型格式。
第二十三部分(ISO/IEC 14496-23),符號化的
音樂 描述。
第二十四部分(ISO/IEC 14496-24),音頻與系統的互動定義。
第二十五部分(ISO/IEC 14496-25),3D圖形壓縮模型。
第二十六部分(ISO/IEC 14496-26),音頻一致性檢查。
第二十七部分(ISO/IEC 14496-27),3D圖形一致性檢查。
目標 據此目標,MPEG4 引入AV 對象(Audio/Visual Objects), 使得更多的互動操作成為可能。
MPEG-4是為在
國際網際網路 上或
移動通信設備 (例如行動電話)上實時傳輸音/
視頻 訊號而制定的最新MPEG標準,MPEG4採用Object Based方式
解壓縮 ,壓縮比指標遠遠優於以上幾種,壓縮倍數為450倍(
靜態 圖像 可達800倍),
解析度 輸入可從320 ×240到1280 ×1024,這是同質量的MPEG1和MJEPG的十倍多。
MPEG4使用「
圖層 」(layer)方式,能夠智慧型化選擇
影像 的不同之處,是可根據
圖像 內容,將其中的對象(人物、物體、背景)分離出來分別進行壓縮,使圖檔案容量大幅縮減,而加速音/
視頻 的傳輸,這不僅僅大大提高了壓縮比,也使圖像探測的功能和準確性更充分的體現出來。
在
網路傳輸 中可以設定MPEG4的碼流
速率 ,清晰度也可在一定的範圍內作相應的變化,這樣便於用戶根據自己對錄像時間、傳輸路數和清晰度的不同要求進行不同的設定,大大提高了系統使用時的適應性和靈活性。也可採用動態幀測技術,動態時快錄,靜態時慢錄,從而減少平均數據量,節省
存儲空間 。而且當在傳輸有誤碼或
丟包 現象時,MPEG4受到的影響很小,並且能迅速恢復。
MPEG4的套用前景將是非常廣闊的。它的出現將對以下各方面產生較大的推動作用:
數位電視 、動態
圖像 、
全球資訊網 (WWW)、實時
多媒體 監控、低
比特率 下的移動多媒體通信、於內容存儲和檢索多媒系統、Internet/Intranet上的
視頻流 與可視遊戲、基於面部表情模擬的
虛擬會議 、
DVD 上的互動多媒體套用、基於
計算機網路 的可視化合作實驗室場景套用、演播電視等。
當然,除了MPEG 4外,還有更先進的下一個版本MPEG 7 ,準確來說, MPEG-7並不是一種壓縮
編碼 方法,而是一個
多媒體 內容描述接口。繼MPEG4之後,要解決的矛盾就是對日漸龐大的
圖像 、聲音信息的管理和迅速搜尋。MPEG 7就是針對這個矛盾的解決方案。MPEG7力求能夠快速且有效地搜尋出用戶所需的不同類型的
多媒體 材料。預計這個方案於2001年初最終完成並公布。按照以往 MPEG-4的經驗,MPEG-7起碼要再過兩年才能進入實際套用階段。
視頻編碼 運動圖像 專家組MPEG 於1999年2月正式公布了MPEG-4(ISO/IEC14496)標準第一版本。同年年底MPEG-4第二版亦告底定,
且於2000年年初正式成為國際標準。
MPEG4多媒體編碼衛星電視數字機頂盒 MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮算法,它是針對
數位電視 、互動式繪圖套用(影音合成內容)、
互動式多媒體 (WWW、資料擷取與分散)等整合及
壓縮技術 的需求而制定的國際標準。MPEG -4標準將眾多的
多媒體 套用集成 於一個完整的框架內,旨在為多媒體通信及套用環境提供標準的算法及工具,從而建立起一種能被多媒體傳輸、
存儲 、檢索等套用領域普遍採用的統一
數據格式 。
MPEG-4的
編碼 理念是:
MPEG-4標準 同以前標準的最顯著的差別在於它是採用
基於對象 的編碼理念,即在編碼時將一幅景物分成若干在時間和空間上相互聯繫的
視頻 音頻 對象,分別編碼後,再經過復用傳輸到接收端,然後再對不同的對象分別解碼,從而組合成所需要的視頻和音頻。這樣既方便我們對不同的對象採用不同的
編碼 方法和表示方法,又有利於不同
數據類型 間的融合,並且這樣也可以方便的實現對於各種對象的操作及
編輯 。例如,我們可以將一個卡通人物放在真實的場景中,或者將真人置於一個虛擬的演播室里,還可以在
網際網路 上方便的實現互動,根據自己的需要有選擇的組合各種
視頻 音頻以及圖形
文本 對象。
MPEG-4系統的一般框架是:對
自然 或合成的視聽內容的表示;對視聽內容
數據流 的管理,如多點、同步、緩衝管理等;對靈活性的支持和對系統不同部分的配置。
優點 (1) 基於內容的互動性 MPEG-4提供了基於內容的
多媒體 數據訪問工具,如
索引 、超級連結、上傳、下載、刪除等。利用這些工具,用戶可以方便地從
多媒體資料庫 中有選擇地獲取自己所需的與對象有關的內容,並提供了內容的操作和
位流編輯功能 ,可套用於互動式家庭購物,淡入淡出的數位化效果等。MPEG-4提供了高效的自然或合成的
多媒體 數據編碼 方法。它可以把自然場景或對象組合起來成為合成的
多媒體 數據。
(2) 高效的壓縮性 MPEG-4基於更高的
編碼 效率。同已有的或即將形成的其它標準相比,在相同的
比特率 下,它基於更高的視覺聽覺質量,這就使得在低頻寬的信道上傳送
視頻 、音頻成為可能。同時MPEG-4還能對同時發生的
數據流 進行
編碼 。一個場景的多視角或
多聲道 數據流 可以高效、同步地合成為最終數據流。這可用於
虛擬三維遊戲、 三維電影 、飛行仿真練習等。
(3) 通用的訪問性 MPEG-4提供了易出錯環境的魯棒性,來保證其在許多無線和有線網路以及存儲介質中的套用,此外,MPEG-4還支持基於內容的的可分級性,即把內容、質量、複雜性分成許多小塊來滿足不同用戶的不同需求,支持具有不同頻寬,不同存儲容量的傳輸信道和接收端。
這些特點無疑會加速多
媒體 套用的發展,從中受益的套用領域有:網際網路多媒體套用;廣播電視;互動式
視頻 遊戲;實時可視通信;互動式存儲媒體套用;演播室技術及電視後期製作;採用面部
動畫 技術的
虛擬會議 ;多媒體郵件;移動通信條件下的多媒體套用;
遠程視頻監控 ;通過
ATM網路 等進行的遠程
資料庫 業務等。
(4)MPEG4的技術特點 MPEG1、MPEG2技術當初制定時,它們定位的標準均為高層媒體表示與結構,但隨著
計算機 軟體及網路技術的快速發展,MPEG1.MPEG2技術的弊端就顯示出來了:互動性及靈活性較低,壓縮的
多媒體檔案 體積 過於龐大,難以實現網路的實時傳播。而MPEG4技術的標準是對
運動圖像 中的內容進行
編碼 ,其具體的
編碼 對象就是圖像中的音頻和
視頻 ,術語稱為“AV對象”,而連續的AV對象組合在一起又可以形成AV場景。因此,MPEG4標準就是圍繞著AV對象的編碼、
存儲 、傳輸和組合而制定的,高效率地編碼、組織、存儲、傳輸AV對象是MPEG4標準的基本內容。
在
視頻編碼 方面,MPEG4支持對自然和合成的視覺對象的編碼。(合成的視覺對象包括2D、
3D動畫 和人面部表情動畫等)。在
音頻編碼 上,MPEG4可以在一組
編碼工具 支持下,對語音、
音樂 等自然聲音對象和具有迴響、空間方位感的合成聲音對象進行音頻編碼。
由於MPEG4隻處理
圖像幀 與幀之間有差異的元素,而捨棄相同的元素,因此大大減少了合成
多媒體檔案 的體積。套用MPEG4技術的影音檔案最顯著特點就是
壓縮率 高且成像清晰,一般來說,一小時的
影像 可以被壓縮為350M左右的數據,而一部高清晰度的DVD
電影 ,可以壓縮成兩張甚至一張650M CD光碟來存儲。對廣大的“平民”計算機用戶來說, 這就意味著,您不需要購置
DVD-ROM 就可以欣賞近似DVD質量的高品質
影像 。而且採用MPEG4
編碼 技術的影片,對
機器 硬體配置的要求非常之低,300MHZ 以上CPU,64M的記憶體和一個 8M顯存的
顯示卡 就可以流暢的播放。在播放軟體方面,它要求也非常寬鬆,你只需要安裝一個 500K左右的 MPEG4
編碼 驅動後,用 WINDOWS自帶的
媒體播放器 就可以流暢的播放了(下面我們會具體講到)。
視頻編碼 傳統壓縮
編碼 建立在香農資訊理論基礎之上的,以經典集合論為工具,用機率統計
模型 來描述信源,其壓縮思想基於數據統計,因此只能去除數據冗餘,屬於低層壓縮
編碼 的範疇。
伴隨著
視頻 編碼 相關學科及新興學科的迅速發展,新一代數據壓縮技術不斷誕生並日益成熟,其編碼思想由基於
像素 和像素塊轉變為基於內容 (content-based)。它突破了仙農資訊理論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內容冗餘來實現
數據壓縮 ,可分為基於對象(object-based)和基於語義(semantics-based)兩種,前者屬於中層壓縮
編碼 ,後者屬於高層壓縮
編碼 。
與此同時,
視頻 編碼 相關標準的制定也日臻完善。
視頻 編碼 標準主要由ITU-T和ISO/IEC開發。ITU-T發布的
視頻 標準有H.261、 H.262、 H.263、 H.263+、
H.263++ ,ISO/IEC公布的MPEG系列標準有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,並且計畫公布
MPEG-21 。
MPEG即Moving Picture Expert Group(
運動圖像 專家組),它是專門從事制定
多媒體 視音頻壓縮
編碼 標準的國際組織。MPEG系列標準已成為國際上影響最大的
多媒體 技術標準,其中MPEG-1和MPEG-2是採用以仙農資訊理論為基礎的
預測編碼 、變換編碼、
熵編碼 及運動補償等第一代
數據壓縮 編碼 技術;MPEG-4(ISO/IEC 14496)則是基於第二代壓縮編碼技術制定的國際標準,它以視聽媒體對象為
基本單元 ,採用基於內容的壓縮編碼,以實現數字視音頻、圖形合成套用及
互動式多媒體 的集成。MPEG系列標準對VCD、DVD等視聽消費電子及
數位電視 和
高清晰度電視 (DTV&&HDTV)、
多媒體 通信等信息產業的發展產生了巨大而深遠的影響。
核心思想 摘要 關鍵字 1 引言 當今時代,信息技術和計算機網際網路飛速發展,在此背景下,
多媒體 信息已成為人類獲取信息的最主要
載體 ,同時也成為
電子信息 領域技術開發和研究的熱點。
多媒體 信息經
數位化 處理後具有易於加密、抗干擾能力強、可再生中繼等優點,但同時也伴隨
海量數據 的產生,這對信息存儲設備及
通信網路 均提出了很高要求,從而成為阻礙人們有效獲取和使用信息的重大瓶頸。
因此研究高效的
多媒體 數據壓縮 編碼 方法,以壓縮形式存儲和傳輸數位化的多媒體信息具有重要意義。作為
多媒體技術 的核心及關鍵,多媒體
數據壓縮 編碼 近年來在技術及套用方面都取得了長足進展,它的進步和完善正深刻影響著現代社會的方方面面。
2 MPEG標準演進 視頻編碼研究
人類獲取的信息中70%來自於視覺,視頻信息在
多媒體 信息中占有重要地位;同時視頻數據冗餘度最大,經壓縮處理後的視頻質量高低是決定多媒體服務質量的關鍵因素。因此數字
視頻 技術是多媒體套用的核心技術,對視頻編碼的研究已成為信息技術領域的熱門話題。
視頻編碼的研究課題主要有數據壓縮比、壓縮/解壓速度及快速實現算法三方面內容。以壓縮/解壓後數據與壓縮前原始數據是否完全一致作為衡量標準,可將數據壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。
傳統壓縮
編碼 建立在仙農資訊理論基礎之上的,以經典集合論為工具,用機率統計模型來描述信源,其壓縮思想基於數據統計,因此只能去除數據冗餘,屬於低層壓縮編碼的範疇。
伴隨著視頻編碼相關學科及新興學科的迅速發展,新一代
數據壓縮技術 不斷誕生並日益成熟,其編碼思想由基於像素和像素塊轉變為基於內容 (content-based)。它突破了仙農資訊理論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內容冗餘來實現數據壓縮,可分為基於對象(object-based)和基於語義(semantics-based)兩種,前者屬於中層壓縮編碼,後者屬於高層壓縮編碼。
與此同時,視頻編碼相關標準的制定也日臻完善。視頻編碼標準主要由ITU-T和ISO/IEC開發。ITU-T發布的視頻標準有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公布的MPEG系列標準有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,並且計畫公布MPEG-21。
MPEG標準演進
MPEG即Moving Picture Expert Group(
運動圖像 專家組),它是專門從事制定多媒體視音頻壓縮編碼標準的國際組織。MPEG系列標準已成為國際上影響最大的多媒體技術標準,其中MPEG-1和MPEG-2是採用以香農資訊理論為基礎的預測編碼、
變換編碼 、熵編碼及
運動補償 等第一代數據壓縮編碼技術;MPEG-4(ISO/IEC 14496)則是基於第二代壓縮編碼技術制定的國際標準,它以視聽媒體對象為基本單元,採用基於內容的壓縮編碼,以實現數字視音頻、圖形合成套用及互動式多媒體的集成。MPEG系列標準對VCD、DVD等視聽消費電子及
數位電視 和高清晰度電視(DTV&&HDTV)、多媒體通信等信息產業的發展產生了巨大而深遠的影響。
3 核心思想及關鍵技術 3.1 核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是採用第一代壓縮
編碼 技術,著眼於
圖像 信號 的統計特性來設計編碼器,屬於
波形編碼 的範疇。第一代壓縮
編碼 方案把
視頻 序列按時間先後分為一系列幀,每一幀
圖像 又分成宏塊以進行運動補償和編碼,這種編碼方案存在以下
缺陷 :
· 將
圖像 固定地分成相同大小的塊,在高壓縮比的情況下會出現嚴重的塊效應,即
馬賽克 效應;
· 未充分利用
人類視覺系統 (HVS,Human Visual System)的特性。
MPEG-4則代表了基於模型/對象的第二代壓縮
編碼 技術,它充分利用了人眼視覺特性,抓住了
圖像 信息傳輸的本質,從輪廓、紋理思路出發,支持基於視覺內容的互動功能,這適應了
多媒體 信息的套用由播放型轉向基於內容的訪問、檢索及操作的發展趨勢。
AV對象(AVO,Audio Visual Object)是MPEG-4為支持基於內容
編碼 而提出的重要概念。對象是指在一個場景中能夠訪問和操縱的實體,對象的劃分可根據其獨特的紋理、運動、形狀、模型和高層語義為依據。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中
圖像 幀的概念,而是一個個視聽場景(AV場景),這些不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或者視聽內容的表示單元,其
基本單位 是原始AV對象,它可以是自然的或合成的聲音、
圖像 。原始AV對象具有高效
編碼 、高效存儲與傳輸以及可互動操作的特性,它又可進一步組成複合AV對象。因此MPEG-4標準的基本內容就是對AV對象進行高效
編碼 、組織、存儲與傳輸。AV對象的提出,使
多媒體 通信具有高度互動及高效
編碼 的能力,AV對象
編碼 就是MPEG-4的核心
編碼 技術。
MPEG-4不僅可提供高壓縮率,同時也可實現更好的
多媒體 內容互動性及全方位的存取性,它採用開放的
編碼 系統,可隨時加入新的編碼算法模組,同時也可根據不同套用需求現場配置解碼器,以支持多種多媒體套用。
MPEG-4 採用了新一代
視頻 編碼技術,它在視頻編碼發展史上第一次把編碼對象從
圖像 幀拓展到具有實際意義的任意形狀
視頻 對象,從而實現了從基於像素的傳統編碼向
基於對象 和內容的現代編碼的轉變,因而引領著新一代智慧型
圖像編碼 的發展潮流。
3.2 關鍵技術
MPEG-4除採用第一代
視頻 編碼 的核心技術,如變換編碼、運動估計與運動補償、量化、熵編碼外,還提出了一些新的有創見性的關鍵技術,並在第一代視頻編碼技術基礎上進行了卓有成效的完善和改進。下面重點介紹其中的一些關鍵技術。
MPEG-4實現基於內容互動的首要任務就是把
視頻 /
圖像分割 成不同對象或者把運動對象從背景中分離出來,然後針對不同對象採用相應
編碼 方法,以實現高效壓縮。因此
視頻 對象提取即視頻對象分割,是MPEG-4視頻
編碼 的關鍵技術,也是新一代視頻編碼的研究熱點和難點。
視頻 對象分割涉及對視頻內容的分析和理解,這與
人工智慧 、
圖像理解 、模式識別和神經網路等學科有密切聯繫。目前
人工智慧 的發展還不夠完善,計算機還不具有觀察、識別、理解
圖像 的能力;同時關於計算機視覺的研究也表明要實現正確的圖像分割需要在更高層次上對
視頻 內容進行理解。因此,儘管MPEG-4 框架已經制定,但至今仍沒有通用的有效方法去根本解決
視頻 對象分割問題,視頻對象分割被認為是一個具有挑戰性的難題,基於語義的分割則更加困難。
目前進行
視頻 對象分割的一般步驟是:先對原始視頻/
圖像數據 進行簡化以利於分割,這可通過低通濾波、
中值濾波 、形態濾波來完成;然後對視頻/圖像數據進行特徵提取,可以是顏色、紋理、運動、幀差、位移幀差乃至語義等特徵;再基於某種均勻性標準來確定分割決策,根據所提取特徵將視頻數據歸類;最後是進行相關後處理,以實現濾除噪聲及準確提取邊界。
在
視頻分割 中基於數學形態理論的分水嶺(watershed)算法被廣泛使用,它又稱水線算法,其基本過程是連續腐蝕二值
圖像 ,由圖像簡化、標記提取、決策、後處理四個階段構成。分水嶺算法具有運算簡單、性能優良,能夠較好提取運動對象輪廓、準確得到運動物體邊緣的優點。但分割時需要梯度信息,對噪聲較敏感,且未利用幀間信息,通常會產生
圖像 過度分割。
視頻 對象平面(VOP,Video Object Plane)是
視頻 對象(VO)在某一時刻的採樣,VOP是MPEG-4視頻
編碼 的核心概念。MPEG-4在
編碼 過程中針對不同VO採用不同的
編碼 策略,即對前景VO的壓縮編碼儘可能保留細節和平滑;對背景VO則採用高壓縮率的編碼策略,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基於對象的
視頻 編碼不僅克服了第一代視頻編碼中高壓縮率編碼所產生的方塊效應,而且使用戶可與場景互動,從而既提高了壓縮比,又實現了基於內容的互動,為視頻編碼提供了廣闊的發展空間。
MPEG-4支持任意形狀
圖像 與視頻的編解碼。對於任意形狀視頻對象。對於極低
比特率 實時套用,如可視電話、會議電視,MPEG-4則採用VLBV(Very Low Bit-rate Video,極低比特率
視頻 )核進行
編碼 。
傳統的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現了傳統
編碼 與基於內容編碼在MPEG-4中的統一。VO概念的引入,更加符合人腦對視覺信息的處理方式,並使
視頻信號 的處理方式從數位化進展到智慧型化,從而提高了視頻信號的互動性和靈活性,使得更廣泛的視頻套用及更多的內容互動成為可能。因此VOP
視頻 編碼 技術被譽為視頻信號處理技術從
數位化 進入智慧型化的初步探索。
隨著網際網路業務的巨大增長,在
速率 起伏很大的IP(Internet Protocol)網路及具有不同傳輸特性的
異構網路 上進行
視頻 傳輸的要求和套用越來越多。在這種背景下,
視頻 分級
編碼 的重要性日益突出,其套用非常廣泛,且具有很高的理論研究及實際套用價值,因此受到人們的極大關注。
視頻 編碼 的可分級性(scalability)是指
碼率 的可調整性,即視頻數據只壓縮一次,卻能以多個
幀率 、空間
解析度 或視頻質量進行解碼,從而可支持多種類型用戶的各種不同套用要求。
MPEG-4通過
視頻 對象層(VOL,Video Object Layer)
數據結構 來實現分級
編碼 。MPEG-4提供了兩種基本分級工具,即時域分級(Temporal Scalability)和空域分級(Spatial Scalability),此外還支持時域和空域的混合分級。每一種分級
編碼 都至少有兩層VOL,低層稱為基本層,高層稱為增強層。基本層提供了
視頻 序列的基本信息,增強層提供了視頻序列更高的
解析度 和細節。
在隨後增補的
視頻流 套用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精細可伸縮性)視頻
編碼 算法以及PFGS(Progressive Fine Granularity Scalable,漸進精細可伸縮性)視頻編碼算法。
FGS
編碼 實現簡單,可在編碼
速率 、顯示
解析度 、內容、解碼複雜度等方面提供靈活的自適應和可擴展性,且具有很強的頻寬自適應能力和抗誤碼性能。但還存在
編碼 效率低於非可擴展編碼及接收端
視頻 質量非最優兩個不足。
PFGS則是為改善FGS
編碼 效率而提出的
視頻 編碼算法,其基本思想是在增強層
圖像 編碼時使用前一幀重建的某個增強層圖像為參考進行運動補償,以使運動補償更加有效,從而提高編碼效率。
4. 運動估計與運動補償技術
MPEG-4採用I-VOP、P-VOP、B-VOP三種
幀格式 來表征不同的運動補償類型。它採用了H.263中的半像素搜尋(half pixel searching)技術和重疊運動補償(overlapped motion compensation)技術,同時又引入重複填充(repetitive padding)技術和修改的塊(多邊形)匹配(modified block (polygon)matching)技術以支持任意形狀的VOP區域。
此外,為提高運動估計算法精度,MPEG-4採用了MVFAST(Motion Vector Field Adaptive Search Technique)和改進的PMVFAST(Predictive MVFAST)方法用於運動估計。對於全局運動估計,則採用了基於特徵的快速頑健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。
在MPEG-4
視頻 編碼 中,運動估計相當耗時,對編碼的實時性影響很大。因此這裡特彆強調快速算法。運動估計方法主要有像素
遞歸法 和塊匹配法兩大類,前者複雜度很高,實際中套用較少,後者則在H.263和MPEG中廣泛採用。在塊匹配法中,重點研究塊匹配準則及搜尋方法。目前有三種常用的匹配準則:
1.絕對誤差和(SAD,Sum of Absolute Difference)準則;
2.均方誤差(MSE,Mean Square Error)準則;
3.歸一化
互相關函式 (NCCF,Normalized Cross Correlation Function)準則。
在上述三種準則中,SAD準則具有不需乘法運算、實現簡單方便的優點而使用最多,但應清楚匹配準則的選用對匹配結果影響不大。
在選取匹配準則後就應進行尋找最優匹配點的搜尋工作。最簡單、最可靠的方法是全搜尋法(FS,Full Search),但計算量太大,不便於實時實現。因此快速搜尋法應運而生,主要有交叉搜尋法、二維對數法和鑽石搜尋法,其中鑽石搜尋法被MPEG-4校驗模型(VM,Verification Model)所採納,下面詳細介紹。
鑽石搜尋(DS,Diamond Search)法以搜尋模板形狀而得名,具有簡單、
魯棒 、高效的特點,是現有性能最優的快速搜尋算法之一。其基本思想是利用搜尋模板的形狀和大小對運動估計算法速度及精度產生重要影響的特性。在搜尋最優匹配點時,選擇小的搜尋模板可能會陷入局部最優,選擇大的搜尋模板則可能無法找到最優點。因此DS算法針對
視頻 圖像 中運動矢量的基本規律,選用了兩種形狀大小的搜尋模板。
· 大鑽石搜尋模板(LDSP,Large Diamond Search Pattern),包含9個候選位置;
· 小鑽石搜尋模板(SDSP,Small Diamond Search Pattern),包含5個候選位置。
DS算法搜尋過程如下:開始階段先重複使用大鑽石搜尋模板,直到最佳匹配塊落在大鑽石中心。由於LDSP步長大,因而搜尋範圍廣,可實現
粗定位 ,使搜尋不會陷於局部最小,當粗定位結束後,可認為最優點就在LDSP 周圍8 個點所圍菱形區域中。然後再使用小鑽石搜尋模板來實現最佳匹配塊的準確定位,以不產生較大起伏,從而提高運動估計精度。
此外Sprite
視頻 編碼 技術也在MPEG-4中套用廣泛,作為其核心技術之一。Sprite又稱鑲嵌圖或背景全景圖,是指一個
視頻 對象在視頻序列中所有出現部分經拼接而成的一幅
圖像 。利用Sprite可以直接重構該
視頻 對象或對其進行預測補償
編碼 。
Sprite
視頻 編碼 可視為一種更為先進的運動估計和補償技術,它能夠克服基於固定分塊的傳統運動估計和補償技術的不足,MPEG-4正是採用了將傳統分塊編碼技術與Sprite編碼技術相結合的策略。
4 結束語 多媒體
數據壓縮 編碼 的發展趨勢是基於內容的壓縮,這實際上是信息處理的高級階段,更加向人自身的信息處理方式靠近。人的信息處理並不是基於信號的,而是基於一個比較抽象的、能夠直接進行記憶和處理的方式。
MPEG-4作為新一代
多媒體 數據壓縮 編碼 的典型代表,它第一次提出了基於內容、基於對象的壓縮
編碼 思想。它要求對自然或合成視聽對象作更多分析甚至是理解,這正是信息處理的高級階段,因而代表了現代
數據壓縮 編碼技術的發展方向。
MPEG-4實現了從矩形幀到VOP的轉變以及基於像素的傳統編碼向基於對象和內容的現代編碼的轉變,這正體現了傳統
視頻 編碼與新一代視頻編碼的有機統一。基於內容的互動性是MPEG-4的核心思想,這對於視頻編碼技術的發展方向及廣泛套用都具有特別重要的意義。
套用 (1)套用於視音頻廣播 由於上網人數與日俱增,傳統電視廣播的觀眾逐漸減少,隨之而來的便是廣告收入的減少,所以現在的固定式電視廣播最終將轉向基於TCP/IP的網際網路廣播,觀眾的收看方式也由簡單的遙控器選擇頻道轉為網上
視頻點播 。
視頻點播 的概念不是先把節目下載到
硬碟 ,然後再播放,而是
流媒體 視頻(streaming video),點擊即觀看,邊傳輸邊播放。
現在網際網路中播放視音頻的有:Real Networks公司的 Real Media,
微軟公司 的 Windows Media,
蘋果公司 的 QuickTime,它們定義的視
音頻格式 互不兼容,有可能導致媒體流中難以控制的混亂,而MPEG-4為網際網路
視頻 套用提供了一系列的標準工具,使視音頻碼流具有規範一致性。因此在網際網路播放視音頻採用MPEG-4,應該說是一個安全的選擇。
(2)套用於無線通信 MPEG-4高效的碼率壓縮,互動和分級特性尤其適合於在
窄帶 移動網上實現
多媒體 通信,未來的手機將變成多媒體移動接收機,不僅可以打移動電視電話、移動上網,還可以移動接收多媒體廣播和收看電視。
(3)用於靜止圖像壓縮 靜止
圖像 (
圖片 )在網際網路中大量使用,現在網上的圖片壓縮多採用JPEG技術。MPEG-4中的靜止
圖像 (紋理)壓縮是基於小波變換的,在同樣質量條件下,壓縮後的檔案大小約是JPEG
壓縮檔案 的十分之一。把網際網路上使用的JPEG 圖片轉換成MPEG-4
格式 ,可以大幅度提高圖片在網路中的傳輸速度。
(4)套用於電視電話 傳統用於窄帶電視電話業務的壓縮
編碼 標準,如H261,採用
幀內壓縮 、
幀間壓縮 、減少象素和抽幀等辦法來降低碼率,但編碼效率和
圖像 質量都難以令人滿意。MPEG-4的壓縮
編碼 可以做到以極低碼率傳送質量可以接受的聲像信號,使電視電話業務可以在
窄帶 的公用電話網上實現。
(5)套用於計算機圖形 MPEG-4特殊的
編碼方式 和強大的互動能力,使得基於MPEG-4的計算機圖形和動畫可以從各種來源的
多媒體 資料庫中獲取素材, 並實時組合出所需要的
結果 。因而未來的計算機圖形可以在MPEG-4語法所允許的範圍內向所希望的方向無限發展,產生出
今天 無法想像的動畫及仿真效果。
MPEG4 高清技術算計顯示卡 (6)套用於電子遊戲 MPEG-4可以進行自然
圖像 與聲音同人工合成的圖像與聲音的混合
編碼 ,在編碼方式上具有前所未有的靈活性,並且能及時從各種來源的
多媒體 資料庫中調用素材。這可以在將來產生象電影一樣的電子遊戲,實現極高自由度的互動式操作。
(7)用於硬體產品 目前,MPEG4技術在硬體產品上也已開始逐步得到套用。特別是在
視頻監控 、播放上,這項高清晰度,高壓縮的技術得到了眾多硬體廠商的鐘愛,而市場上支持MPEG4技術的產品也是種類繁多。下面筆者就列舉一些代表性的產品,旨在讓讀者了解MPEG4技術在
今天 套用範圍之廣。
1.、
攝像機 :日本夏普公司推出過套用在網際網路上的數字攝像機VN-EZ1。這台
網路攝像機 利用MPEG4格式,可把
影像 檔案壓縮 為ASF(高級流格式),用戶只要利用微軟公司的MediaPlayer播放程式,就可以直接在電腦上進行播放。
2.、播放機:飛利浦公司於今年八月份推出了一款支持DivX的DVD播放機DVD737。它可以支持DivX 3.11、4.xx、5.xx等MPEG4標準,而對於新標準的支持則可以通過升級
固件 來實現。(3)、
數位相機 :日本京瓷公司在11月中旬發售其最新款數位相機Finecam L30,這款是採用300萬像素、3倍光學變焦設計的數位相機產品, L30採用了MPEG4格式動態
視頻 錄製,可以讓動態視頻錄製畫面效果比傳統數位相機更出色。
4.、手機:在手機領域,MPEG4技術更是得到了廣泛的套用,各大手機廠商也都推出了可拍攝MPEG4動態
視頻 的手機型號,如
西門子ST55 、索尼愛立信P900/P908、LG 彩屏G8000等。
(5)、MPEG4數字硬碟:在今年
深圳 舉行的安防展覽會上,開發數字錄像監控產品的廠家紛紛推出了他們的最新產品,而支持MPEG4的DVR
壓縮技術 也成為改展會上的亮點。
綜述 如
北京 華青紫博科技推出的"E眼神MPEG4數字
視頻 王"便是一款基於網路環境的高清晰數位化監控
報警系統 。內置
多畫面 處理器,集現場監控、監聽、多路同時數字錄像與回放等多種功能為一體。
其實,市場上還有許多基於MPEG4技術的硬體產品,筆者這裡就不一一列舉了,不過筆者相信,隨著
視頻壓縮技術 的不斷發展,MPEG4技術的產品會越來越多的出現在我們生活,工作中。