簡介 多媒體技術藉助日益普及的高速信息網,可實現計算機的全球聯網和
信息資源共享 ,因此被廣泛套用在諮詢服務、圖書、教育、通信、軍事、金融、醫療等諸多行業,並正潛移默化地改變著我們生活的面貌。
主要內容 多媒體技術是使用計算機互動式綜合技術和數字通信網路技術處理多種表示媒體——文本、圖形、圖像、視頻和聲音,使多種信息建立邏輯連線,集成為一個互動式系統。
它主要涉及如下幾個部分:
數據壓縮,圖像處理
它包括HCI與互動介面設計、多模態轉換、壓縮與編碼和
虛擬現實 等。
音頻信息處理:它包括音樂合成、特定人與非特定人的
語音識別 、文字——語音的相互轉換等。
多媒體資料庫和基於內容檢索
多媒體著作工具
多媒體通信與分散式多媒體
多媒體套用
套用現狀 多媒體技術的開發和套用,使人類社會工作和生活的方方面面都沐浴著它所帶來的陽光,新技術所帶來的新感覺、新體驗是以往任何時候都無法想像的。
數據壓縮,圖像處理的套用
多媒體計算機技術 是面向三維圖形、環繞立體聲和彩色全螢幕幕運動畫面的處理技術。而
數字計算機 面臨的是數值、文字、語言、音樂、圖形、動畫、圖像、視頻等多種媒體的問題,它承載著由模擬量轉化成數字量信息的吞吐、存儲和傳輸。數位化了的視頻和
音頻信號 的數量之大是非常驚人的,它給
存儲器 的存儲容量、通信幹線的信道傳輸率以及計算機的速度都增加了極大的壓力,解決這一問題,單純用擴大存儲器容量、增加通信幹線的傳輸率的辦法是不現實的。
數據壓縮技術 為圖像、視頻和音頻信號的壓縮,檔案存儲和分散式利用,提高通信幹線的
傳輸效率 等套用提供了一個行之有效的方法,同時使計算機實時處理音頻、視頻信息,以保證播放出高質量的視頻、音頻節目成為可能。國際標準化協會,國際電子學委員會,國際電信協會等國際組織,於二十世紀90年代領導制定了三個重要的有關視頻
圖像壓縮編碼 的國際標準,JPEG標準;H.261標準;MPEG標準。
JPEG
它是國際上彩色、灰度、靜止圖像的第一個國際標準,它不僅適於靜態圖像的壓縮,電視圖像序列的幀內圖像的壓縮編碼,也常採用JPEG壓縮標準。
261
MPEG
MPEG-I最初用於數字存儲上活動圖像及伴音的編碼,數碼率為1.5Mbit/s,圖像採用SIF格式,兩路立體聲伴音的質量接近CD音質,到現在,MPEG-I
壓縮技術 的套用已經相當成熟,廣泛地套用在VCD製作,圖像監控領域。
MPEG-Ⅱ是MPEG-I的擴充、豐富和完善。MPEG-Ⅱ的視頻數據速率為4-5Mit/S,能提供720×480(NTSC)或720×576(PAL)解析度的廣播級質量的視像,適用於包括寬螢幕和
高清晰度電視 (HDTV)在內的高質量電視和廣播。
隨著網路、有線/無線通信系統的迅猛發展,互動式計算機和
互動性 電視技術的普遍套用,以及視頻、音頻數據綜合服務等套用的發展趨勢,對
計算機多媒體 數據壓縮 編碼、解碼技術及其遵循的標準提出更多更高的要求,有許多要求MPEG-I和MPEG-Ⅱ標準是難以支持的,因此MPEG-Ⅳ應運而生,它正是為解決這些高需求而推出的。
根據MPEG-Ⅳ開發的不同的壓縮編碼,我們可以分為如下幾類:
●基於內容的多媒體數據訪問工具:套用於從線上的
程式庫 和傳送信息的資料庫中進行基於內容的信息檢索。
●基於內容的處理和比特流編輯:套用於互動式家庭購物、影視的製作和編輯、數字特技。
●混合自然和人工
數據編碼 :套用於動畫和音響的自然組合,在遊戲節目中觀眾可以移動和傳送覆蓋在要查看的視頻之上的圖形,從不同的
觀察點 描繪圖形和聲音。
●改進的時間隨機訪問:套用於音像數據的遠程終端隨機訪問。
●改進的編碼效率:套用於低頻寬信道上的有效音像數據存儲和傳送。
●多重並行數據流的編碼:多媒體表演,如
虛擬現實 遊戲,3維動畫,訓練和飛行模擬,多媒體演示和教育。
如今,越來越多的聲像信息以數字形式存儲和傳輸,這為人們更靈活地使用這些信息提供了可能性。但隨之而來的問題是,隨著網路上信息爆炸性的增長,獲取到我們感興趣的信息的難度卻越來越大。傳統的基於關鍵字或檔案名稱的檢索方法顯然不適於數據量龐大、又不具有天然結構特徵的聲像數據,因此近些年來多媒體研究的一個熱點是聲像數據的基於內容的檢索,例如“從這段新聞片中找出有首相、總統的鏡頭”這種形式的檢索。實現這種基於內容檢索的一個關鍵性的步驟是要定義一種描述聲像信息內容的格式,而這與聲像信息的存儲形式(編碼)又是密切相關的。
國際標準化組織 運動圖像專家組注意到了這方面的需求和潛在的套用市場,在推出影響極大的MPEG—1、MPEG-2之後,尚未完成
MPEG-4 的最後定稿,便開始著手制定專門支持
多媒體信息 基於內容檢索的編碼方案:MPEG-7。
MPEG-7作為MPEG家族中的一個新成員,正式名稱叫做“多媒體內容描述接口”,它將為各種類型的多媒體信息規定一種標準化的描述,這種描述與多媒體信息的內容本身一起,支持用戶對其感興趣的各種“資料”的快速、有效地檢索。
以下一些套用領域將從MPEG-7標準的制定中獲益:
●多媒體目錄服務
●廣播式媒體選擇(收音機頻道,電視頻道,…)
●多媒體編輯(個人電子新聞服務,媒體著作)還有一些潛在的套用領域:
●教育
●旅遊信息
●娛樂(例如尋找遊戲、卡拉OK節目)
●購物(例如尋找你喜歡的衣服)
MPEG-21的範圍可以描述成是一個決定性(關鍵)技術的集成,這些技術可以通過訪問全球網路和設備實現對多媒體資源的透明和增強的使用。其功能包括:內容創建、內容產品、內容發布、內容消耗和使用、內容表示、
智慧財產權管理 和保護、內容識別與描述、財政管理、用戶的隱私權、終端和網路資源抽取、事件報告等。
音頻信息處理的套用
在多媒體技術中,存儲聲音信息的檔案格式主要有:WAV檔案、VOC檔案、MIDI檔案、AIF檔案、SON檔案及RMI檔案等。
音頻信息錄製編輯
把音樂和語音加到多媒體套用中,是我們研究音頻處理技術的目的,下面是我們常用的音頻信息錄製編輯軟體。
WaveEdit工具的REC命令;Sound Blaster卡的VEdit2軟體;Microsoft SoundSystem卡的Quick Recorder軟體;Cooledit軟體;Wave Edit工具;Creative WaveStudio。
語音識別
語音的識別長久以來一直是人們的美好夢想,讓計算機聽懂人說話是發展人機語音通信和新一代智慧型計算機的主要目標。隨著計算機的普及、越來越多的人在使用計算機,如何給不熟悉計算機的人提供一個友好的人機互動手段,是人們感興趣的問題,而
語音識別技術 就是其中最自然的一種交流手段。
自從20世紀80年代中期以來,新技術的不斷出現使
語音識別 有了實質性的進展。特別是
隱馬爾可夫模型 (HMM)的研究和廣泛套用,推動了語音識別的迅速發展,陸續出現了許多基於HMM模型的語音識別軟什系統。
當前,語音識別領域的研究正方興未艾。在這方面的新算法、新思想和新的套用系統不斷湧現。同時,語音識別領域也正處在一個非常關鍵的時期,世界各國的研究人員正在向語音識別的最高層次套用——非特定人、大辭彙量、連續語音的聽寫機系統的研究和實用化系統進行衝刺,可以樂觀地說,人們所期望的
語音識別技術 實用化的夢想很快就會變成現實。
文語轉換
世界上已研製出漢、英、日、法、德等語種的文語轉換系統,並在許多領域得到了廣泛套用。
DEC Talk文語轉換系統:這是DEC公司在MIT的KLATT教授研製的語音合成器的基礎上開發的語音生成系統,用於英語文語轉換。
AT&T Bell文語轉換系統:這是美國AT&T貝爾實驗室研製的文語轉換系統,它最初用於英語的文語轉換,現在正擴展到其它語種。
Sonic文語轉換系統:這是
清華大學 計算機系基於波形編輯的漢語文語轉換系統。該系統利用漢語詞庫進行分詞,並且根據語音學研究的成果建立了語音規則,對漢語中的某些常見語音現象進行了處理。系統採用PSOLA算法修改超音段語音特徵,提高了言語輸出的質量。
資料庫和基於內容檢索的套用
多媒體
信息檢索技術 的套用使多媒體
信息檢索系統 、
多媒體資料庫 ,可視信息系統、多媒體信息自動獲取和索引系統等套用逐漸變為現實。基於內容的圖像檢索、文本檢索系統己成為近年來
多媒體信息 檢索領域中最為活躍的研究課題,基於內容的圖像檢索是根據其可視特徵,包括顏色、紋理、形狀、位置、運動、大小等,從圖像庫中檢索出與查詢描述的圖像內容相似的圖像,利用圖像可視特徵索引,可以大大提高圖像系統的檢索能力。
隨著多媒體技術的迅速普及,Web上將大量出現多媒體信息,例如,在遙感、醫療、安全、商業等部門中每天都不斷產生大量的
圖像信息 。這些信息的有效組織管理和檢索中都依賴基於圖像內容的檢索。目前,這方面的研究已引起了廣泛的重視,並已有一些提供
圖像檢索 功能的多媒體檢索
系統軟體 問世。例如,由IBM公司開發的QBIC是最有代表性的系統,它通過友好的圖形界面為用戶提供了顏色、紋理、草圖、形狀等多種檢索方法;
美國加州大學伯克利分校 與加州水資源部合作進行了Chabot計畫,以便對水資源部的大量圖像提供基於內容的有效檢索手段。此外還有
麻省理工學院 的Photobook,可以利用Face,Shape,Texture,Photobook分別對人臉圖像、工具和紋理進行基於內容的檢索,在Virage系統中又進一步發展了將多種檢索特徵相融合的手段。澳大利亞的New South Wales大學已開發了NUTTAB系統,用於食品成份資料庫的檢索。
清華大學 計算機繫結合國家863高技術研究發展項目“Web上基於內容的圖像檢索”的研究,於1997年研製了一個Intemet上的靜態圖像的基於內容檢索的
原型系統 。該項目的研究目標是開發能在Internet/Intranet環境下,通過友好的人-機界面,以顏色、紋理等圖像特徵或樣本
圖像檢索 圖像的方法和工具。
著作工具的套用
多媒體創作工具是電子出版物、
多媒體套用系統 的
軟體開發工具 ,它提供組織和編輯電子出版物和多媒體套用系統各種成分所需要的重要框架,包括圖形、動畫、聲音和視頻的剪輯。製作工具的用途是建立具有互動式的用戶界面,在螢幕上演示電子出版物及製作好的多媒體套用系統以及將各種多媒體成分集成為一個完整而有內在聯繫的系統。
多媒體著作創作工具可以分成:基於時間的創作工具;基於圖符(Icon)或流線(Line)創作工具;基於卡片(Card)和頁面(Page)的創作工具;以傳統程式語言為基礎的創作工具。它們的代表軟體是Action、Autherware、IconAuther、
ToolBook 、Hypercard、北大方正開發的方正奧斯和
清華大學 開發的Ark創作系統。
在多媒體著作創作中,還必須藉助一些用於文本、音視頻及
圖像處理軟體 系統。對於不同的媒體素材,採用的軟體也不同。
用多媒體創作工具可以製作各種電子出版物及各種教材、參考書、導遊和地圖、醫藥衛生、商業手冊及遊戲娛樂節目,主要包括
多媒體套用系統 ;演示系統或信息查詢系統;培訓和教育系統;娛樂、視頻動畫及廣告;專用多媒體套用系統;領導決策
輔助系統 ;飯店信息查詢系統;導遊系統;歌舞廳點歌結算系統;商店導購系統;生產商業實時監測系統以及證券交易實時查詢系統等。
通信及分散式多媒體技術的套用
人類社會逐漸進入信息化時代,社會分工越來越細,人際交往越來越頻繁,群體性、
互動性 、分布性和協同性將成為人們生活方式和勞動方式的基本特徵,其間大多數工作都需要群體的努力才能完成。但在現實生活中影響和阻礙上述工作方式的因素太多,如打電話時對方卻不在。即使電話交流也只能通過聲音,而很難看見一些重要的圖紙資料,要面對面的交流討論,又需要費時的長途旅行和昂貴的差旅費用,這種方式造成了效率低、費時長、開銷大的缺點。今天,隨著
多媒體計算機技術 和通信技術的發展,兩者相結合形成的多媒體通信和分散式
多媒體信息系統 較好地解決上述問題。
多媒體通信和分散式多媒體技術涉及:
計算機支持的協同工作 (CSCW)、視頻會議、視頻點播(VOD)等。
計算機支持的協同工作系統
多媒體會議系統
它是一種實時的分散式多媒體軟體套用的實例,它參與實時音頻和視頻這種現場感的連續媒體,可以
點對點通信 ,也可以多點對多點的通信,而且還充分利用其它媒體信息,如圖形標註、靜態圖像、文本等計算數據信息進行交流,對數位化的視頻、音頻及文本、數據等多媒體進行實時傳輸,利用計算機系統提供的良好的互動功能和管理功能,實現人與人之間的“面對面”的
虛擬會議 環境,它集計算機
互動性 、通信的分布性已及電視的真實性為一體,具有明顯的優越性,是一種快速高效、日益增長、廣泛套用的新的通信業務。
VOD和互動電視(ITV)系統
它是根據用戶要求播放節目的
視頻點播系統 ,具有提供給單個用戶對大範圍的影片、視頻節目、遊戲、信息等進行幾乎同時訪問的能力。對於用戶而言,只需配備回響的多媒體電腦終端或者一台電視機和機頂盒,一個
視頻點播 遙控器,“想看什麼就看什麼,想什麼時候看就什麼時候看”,用戶和被訪問的資料之間高度的
互動性 使它區別於傳統的視頻節目的接收方式。它是多媒體數據壓縮解壓技術,綜合了計算機技術、通信技術和電視技術的一門綜個技術。
在這些VOD套用技術的支持和推動下,網路線上視頻、線上音樂、網上直播為主要項目的網上休閒娛樂、新聞傳播等服務得到了迅猛發展,各大電視台、廣播媒體和娛樂業公司紛紛推出其網上節目,雖然目前由於
網路頻寬 的限制,視頻傳輸的效果還遠不能達到人們所預期的滿意程度,還是受到了越來越多的用戶的青睞。
VOD和互動電視(ITV)系統的套用,在某種意義上講是視頻信息技術領域的一場革命,具有巨大的潛在市場,具體套用在電影點播、遠程購物、遊戲、卡拉OK服務、點播新聞、遠程教學、家庭銀行服務等方面。
CAI及遠程教育系統
根據一定的教學目標,在計算機上編制一系列的程式,設計和控制學習者的學習過程,使學習者通過使用該程式,完成學習任務,這一系列電腦程式稱為教育多媒體軟體或稱為CAI(Computer Assist Instruction
計算機輔助教學 )。
網路遠程教育 模式依靠現代通信技術及多媒體技術的發展,大幅度地提高了教育傳播的範圍和時效,使教育傳播不受時間、地點、國界和氣候的影響。CAI的套用,使學生真正打破了明顯的校園界限,改變了傳統的“課堂教學”的概念,突破時空的限制,接受到來自不同國家、教師的指導,可獲得除文本以外更豐富、直觀的
多媒體教學 信息,共享
教學資源 ,它可以按學習者的思維方式來組織教學內容,也可以由學習者自行控制和檢測,使傳統的教學由單向轉向雙向,實現了遠程教學中師生之間、學生與學生之間的雙向交流。
地理信息系統(GIS)
地理信息系統 (GIS)獲取、處理、操作、套用地理空間信息,主要套用在測繪、資源環境的領域。與語音圖像處理技術比較,地理信息系統技術的成熟相對較晚,軟體套用的專業程度相對也較高,隨著計算機技術的發展,
地理信息技術 逐步形成為一門新興產業。
除了大型GIS平台之外,設施管理、土地管理、城市規劃、地籍測量的專業套用多媒體技術也層出不窮。
多媒體監控技術
圖像處理 、聲音處理、檢索查詢等多媒體技術綜合套用到實時報警系統中,改善了原有的模擬報警系統,使
監控系統 更廣泛地套用到工業生產、交通安全、銀行保全、酒店管理等領域中。它能夠及時發現異常情況,迅速報警,同時將報警信息存儲到資料庫中以備查詢,並互動地綜合圖、文、聲、動畫多種媒體信息,使報警的表現形式更為生動、直觀,人機界面更為友好。
發展趨勢 總的來看,多媒體技術正向二個方而發展:一是網路化發展趨勢,與寬頻網路通信等技術相互結合,使多媒體技術進入科研設計、企業管理、
辦公自動化 、遠程教育、
遠程醫療 、檢索諮詢,文化娛樂、自動測控等領域;二是多媒體終端的部件化、智慧型化和嵌入化,提高計算機系統本身的多媒體性能,開發智慧型化家電。
多媒體技術的網路化發展趨勢
技術的創新和發展將使諸如伺服器、
路由器 、轉換器等
網路設備 的性能越來越高,包括用戶端CPU、記憶體、
圖形卡 等在內的硬體能力空前擴展,人們將受益於無限的計算和充裕的頻寬,它使網路套用者改變以往被動地接受處理信息的狀態,並以更加積極主動的姿態去參與眼前的網路虛擬世界。
多媒體技術的發展使
多媒體計算機 將形成更完善的計算機支撐的協同工作環境,消除了空間距離的障礙,也消除了時間距離的障礙,為人類提供更完善的
信息服務 。
互動的、動態的多媒體技術能夠在網路環境創建出更加生動逼真的二維與三維場景,人們還可以藉助攝像等設備,把辦公室和娛樂工具集合在終端多媒體計算器上,可在世界任一角落與千里之外的同行在實時視頻會議上進行市場討論、產品設計,欣賞高質量的圖像畫面。新一代用戶界面(UI)與智慧型人工(Intelligent Agent)等
網路化 、人性化、個性化的多媒體軟體的套用還可使不同國籍、不同文化背景和不同文化程度的人們通過“人機對話”,消除他們之間的隔閡,自由地溝通與了解。
世界正邁進數位化、網路化、全球一體化的資訊時代。信息技術將滲透著人類社會的方方面面,其中
網路技術 和多媒體技術是促進信息社會全面實現的關鍵技術。MPEG曾成功地發起並制定了
MPEG-1 、MPEG-2標準,現在MPEG組織也已完成了
MPEG-4標準 的1、2、3、4版本的標準,2001年9月完成MPEG-7標準的制定工作,同時在2001年12月完成MPEG-21的制定工作。
多媒體互動技術的發展,使多媒體技術在
模式識別 、全息圖像、
自然語言理解 (語音識別與合成)和新的感測技術(手寫輸入、數據手套、電子氣味合成器)等基礎上,利用人的多種感覺通道和動作通道(如語音、書寫、表情、姿勢、視線、動作和嗅覺等),通過數據手套和跟蹤手語信息,提取特定人的面部特徵,合成面部動作和表情,以並行和非精確方式與計算機系統進行互動。可以提高人機互動的自然性和高效性,實現以三維的逼真輸出為標誌的
虛擬現實 。
多媒體終端的部件化、智慧型化和嵌入化發展趨勢 目前多媒體計算機硬體體系結構,多媒體計算機的視頻音頻接口軟體不斷改進,尤其是採用了硬體
體系結構設計 和軟體、算法相結合的方案,使多媒體計算機的性能指標進一步提高,但要滿足多媒體網路化環境的要求,還需對軟體作進一步的開發和研究,使多媒體終端設備具有更高的部件化和智慧型化,對多媒體終端增加如文字的識別和輸入、漢語語音的識別和輸入、自然語言理解和機器翻譯、圖形的識別和理解、機器人視覺和計算機視覺等智慧型。
主要用於數學運算及數值處理,隨著多媒體技術和
網路通訊技術 的發展,需要CPU晶片本身其具有更高的綜合處理聲、文、圖信息及通訊的功能,因此我們可以將媒體信息實時處理和壓縮編碼算法作到CPU晶片中。
從目前的發展趨勢看可以把這種晶片分成兩類:一類是以多媒體和通訊功能為主。融合CPU晶片原有的計算功能,它的設計目標是用在多媒體專用設備,家電及寬頻通訊設備,可以取代這些設備中的CPU及大量ASIC和其它晶片。另一類是以通用CPU計算功能為主,融合多媒體和通信功能,它們的設計目標是與現有的
計算機系列 兼容,同時具有多媒體和通信功能,主要用在多媒體計算機中。
隨著多媒體技術的發展,TV與PC技術的競爭與融合越來越引入注目,傳統的電視主要用在娛樂,而PC重在獲取信息。隨著電視技術的發展,電視瀏覽收看功能、互動式節目指南、電視上網等功能應運而生。而PC技術在媒體節目處理方面也有了很大的突破,視
音頻流 功能的加強,搜尋引擎,網上看電視等技術相應出現,比較來看,收發E-Mail、聊天和
視頻會議終端 功能更是PC與電視技術的溶合點,而
數字機頂盒 技術適應了TV與PC溶合的發展趨勢,延伸出“信息家電平台”的概念,使多媒體終端集家庭購物、家庭辦公、家庭醫療、互動教學、互動遊戲、
視頻郵件 和
視頻點播 等全方位套用為一身,代表了當今嵌入化多媒體終端的發展方向。
嵌入式
多媒體系統 可套用在人們生活與工作的各個方面,在工業控制和商業管理領域,如智慧型工控設備、POS/ATM機、IC卡等;在家庭領域,如數字機頂盒、數字式電視、WebTV、網路冰櫃、網路空調等
消費類電子產品 ,此外,嵌入式多媒體系統還在醫療類電子設備、多媒體手機、掌上電腦、車載導航器、娛樂、軍事方面等領域有著巨大的套用前景。