AVI是音頻視頻交錯(Audio Video Interleaved)的英文縮寫,它是Microsoft公司開發的一種符合RIFF檔案規範的數字音頻與視頻檔案格式,原先用於Microsoft Video for Windows (簡稱VFW)環境,已被Windows 95/98、OS/2等多數作業系統直接支持。AVI格式允許視頻和音頻交錯在一起同步播放,支持256色和RLE壓縮,但AVI檔案並未限定壓縮標準,因此,AVI檔案格式只是作為控制界面上的標準,不具有兼容性,用不同壓縮算法生成的AVI檔案,必須使用相應的解壓縮算法才能播放出來。常用的AVI播放驅動程式,主要是Microsoft Video for Windows或Windows 95/98中的Video 1,以及Intel公司的Indeo Video。AVI檔案主要套用在多媒體光碟上,用來保存電影、電視等各種影像信息,有時也出現在Internet上,供用戶下載、欣賞新影片的精彩片斷。
MPEG/MPG/DAT---MPEG檔案
MPEG檔案格式是運動圖像壓縮算法的國際標準,它採用有損壓縮方法減少運動圖像中的冗餘信息,同時保證每秒30幀的圖像動態刷新率,已被幾乎所有的計算機平台共同支持。MPEG標準包括MPEG視頻、MPEG音頻和MPEG系統(視頻、音頻同步)三個部分,前文介紹的MP3音頻檔案就是MPEG音頻的一個典型套用,而Video CD (VCD)、Super VCD (SVCD)、DVD (Digital Versatile Disk)則是全面採用MPEG技術所產生出來的新型消費類電子產品。MPEG壓縮標準是針對運動圖像而設計的,其基本方法是:在單位時間內採集並保存第一幀信息,然後只存儲其餘幀相對第一幀發生變化的部分,從而達到壓縮的目的,它主要採用兩個基本壓縮技術:運動補償技術(預測編碼和插補碼)實現時間上的壓縮,變換域(離散餘弦變換DCT)壓縮技術實現空間上的壓縮。MPEG的平均壓縮比為50∶1,最高可達200∶1,壓縮效率非常高,同時圖像和音響的質量也非常好,並且在微機上有統一的標準格式,兼容性相當好。
這裡值得注意的是DIVX。DIVX視頻編碼技術可以說是一種對 DVD 造成威脅的新生視頻壓縮格式,也有人說它是 DVD 殺手,它由 Microsoftmpeg4 v3 修改而來,使用了MPEG4的壓縮算法。同時它也可以說是為了打破 ASF 的種種協定而發展出來的。而使用這種據說是美國禁止出口的編碼技術MPEG4 壓縮一部 DVD 只需要 2 張 CDROM。這樣就意味著讀者不需要額外購買DVD光碟機也可以得到和它差不多的視頻質量。而且播放這種編碼,對機器的要求也不高,CPU的最低額度只要求在300MHZ 以上,而且在CPU類型的選擇方面,不論你的芯是PII、CELERON還是PIII、AMDK6/2、AMDK6III、ATHALON,就是CYRIXx86也可以統吃拿下。在配置上64 兆記憶體和一個 8兆顯存的顯示卡上,DIVX便可以流暢的播放了。
RMVB影片格式比原先的RM多了VB兩字,在這裡VB是VBR(Variable Bit Rate--可變比特率)的縮寫。在保證了平均採樣率的基礎上,設定了一般為平均採樣率兩倍的最大採樣率值,在處理較複雜的動態影像時也能得到比較良好的效果,處理一般靜止畫面時則靈活的轉換至較低的採樣率,有效的縮減了檔案的大小。
MOV/QT---QuickTime檔案
QuickTime是Apple計算機公司開發的一種音頻、視頻檔案格式,用於保存音頻和視頻信息,具有先進的視頻和音頻功能,被包括Apple Mac OS、Microsoft Windows 95/98/NT在內的所有主流電腦平台支持。QuickTime檔案格式支持25位彩色,支持RLE、JPEG等領先的集成壓縮技術,提供150多種視頻效果,並配有提供了200多種MIDI兼容音響和設備的聲音裝置。新版的QuickTime進一步擴展了原有功能,包含了基於Internet套用的關鍵特性,能夠通過Internet提供實時的數位化信息流、工作流與檔案回放功能,此外,QuickTime還採用了一種稱為QuickTime VR (簡作QTVR)技術的虛擬現實(Virtual Reality, VR)技術,用戶通過滑鼠或鍵盤的互動式控制,可以觀察某一地點周圍360度的景像,或者從空間任何角度觀察某一物體。QuickTime以其領先的多媒體技術和跨平台特性、較小的存儲空間要求、技術細節的獨立性以及系統的高度開放性,得到業界的廣泛認可,已成為數字媒體軟體技術領域的事實上的工業標準。國際標準化組織(ISO)選擇QuickTime檔案格式作為開發MPEG4規範的統一數字媒體存儲格式。
ASF/WMV----MICROSOFT流媒體檔案
Microsoft公司推出的Advanced Streaming Format (ASF,高級流格式),也是一個在Internet上實時傳播多媒體的技術標準,Microsoft公司的野心很大,希圖用ASF取代QuickTime之類的技術標準。ASF的主要優點包括:本地或網路回放、可擴充的媒體類型、部件下載、以及擴展性等。ASF套用的主要部件是NetShow伺服器和NetShow播放器。有獨立的編碼器將媒體信息編譯成ASF流,然後傳送到NetShow伺服器,再由NetShow伺服器將ASF流傳送給網路上的所有NetShow播放器,從而實現單路廣播或多路廣播。這和Real系統的實時轉播則是大同小異。WMV又是一種獨立於編碼方式的在Internet上實時傳播多媒體的技術標準,Microsoft公司希望用其取代QuickTime之類的技術標準以及WAV、AVI之類的檔案擴展名。wmv的主要優點包括:本地或網路回放、可擴充的媒體類型、部件下載、可伸縮的媒體類型、流的優先權化、多語言支持、環境獨立性、豐富的流間關係以及擴展性等。
視頻處理需要使用大量數據作為測試和訓練集,如:Visual Object Classes Challenge 2011 (VOC2011)(PASCAL視覺目標分類挑戰賽2011)、BEHAVE - Crowds(人群行為視頻數據集) 、交通視頻資料庫(2010年-2011年間的數據)、IR Marks video data set (加利福尼亞大學聖迭戈分校臉部運動視頻資料庫) 、The Honda/UCSD Video Database(加利福尼亞大學聖迭戈分校臉部追蹤視頻資料庫) 、VIRAT Video Dataset(美國國防部高級研究計畫局VIRAT視頻資料庫) 等。
可變位元速率(Variable bit rate,簡寫為VBR)是一種追求視頻品質提升並同時降低位元傳輸率的手段。採用VBR編碼的視頻在大動態或複雜的畫面時段會自動以較高的速率來記錄影像,而在靜止或簡單的畫面時段則降低速率。這樣可以在保證畫面品質恆定的前提下儘量減少傳輸率。但對於傳送頻寬固定,需要即時傳送並且沒有暫存手段的視頻串流來說,固定位元速率(Constant bit rate,CBR)比VBR更為適合。視頻會議系統即為一例。