MPEG-4的主要技術概覽
前言
MPEG-4編碼標準是目前最新的國際編碼標準規(guī)范。本文就其主要的內容作了簡單的概述,并在此基礎上,著重介紹了具有特色的音頻對象的編碼和視頻對象的編碼。
1 多媒體傳輸集成框架
多媒體傳輸集成框架(DMIF)主要解決交互網絡中、廣播環(huán)境下以及磁盤中多媒體應用的操作問題,通過傳輸多路合成比特信息,建立客戶端和服務器端的握手和傳輸。與過去不同的是,由于MPEG-4碼流中,包括許多的AV對象,一般而言,這些AV對象都有各自的緩沖器,而不僅僅是視頻緩沖器和音頻緩沖器。
2 語法描述
MPEG-4定義了一個句法描述語言來描述AV對象比特流表示和場景描述信息。這個句法描述語言是對C++的擴展,不僅易于表達其AV對象特性,而且也易于軟件仿真實現與模型驗證。與MPEG-4相比,MPEG-1和MPEG-2則采用一種類C語言的描述,MPEG-4描述語言反映了面向對象技術來描述對象。
3 音頻對象的編碼
視頻音頻的壓縮編碼自然仍是MPEG-4的核心所在。不過,與以前的MPEG-1、MPEG-2不同的是:MPEG-4不僅支持自然的聲音(如語音和音樂),而且支持基于描述語言的合成聲音,支持音頻的對象特征。即一個場景中,同時有人聲和背景音樂,它們也許是獨立編碼的音頻對象。
3.1 自然聲音編碼
MPEG-4研究比較了現有的各種音頻編碼算法,支持2~64K的自然聲音編碼。如8 kHz采樣頻率的2~4 kbit/s的語音編碼,以及8或16 kHz采樣頻率4~16 kbit/s的音頻編碼,一般采用參數編碼;6~24 kbit/s的語音編碼,一般采用碼激勵線性預測(CELP)編碼技術;16 kbit/s以上碼率的編碼,則可采用時頻(T/F)變換編碼技術。這些技術實質上借鑒了已有的音頻編碼標準,如G.723、G.728以及MPEG-1和MPEG-2等。圖1是MPGE4的可伸縮自然音頻編碼器示意圖,包括了3種編碼技術。
3.2 合成聲音
在合成聲音編碼當中,MPEG-4引入了2個極有吸引力的編碼技術:文本到語音編碼和樂譜驅動合成編碼技術。這為網絡上低比特率下交互的帶有語音的游戲鋪平了道路。事實上,合成聲音編碼技術即是一種基于知識庫的參數編碼。特別值得一提的是MPEG-4的樂譜驅動合成技術,在該技術中,解碼器是由一種特殊的合成語言——結構化的音頻管弦樂團語言(SAOL)驅動的。其中的“管弦樂團”是由不同的“樂器”組成的。當解碼器不具有某一“樂器”時,MPEG-4還允許解碼器從編碼器下載該“樂器”到解碼器,以便正確恢復合成聲音??梢?,MPEG-4不是提供一組角MIDI音樂標準中的“樂器”,而是提供了一個可隨時擴充的“管弦樂團”,因此,其可“演奏”樂譜自然更加豐富多彩。
4 視覺對象的編碼
同樣,MPEG-4也支持對自然和合成的視覺對象編碼。合成的視覺對象如2D、3D動畫,人的面部表情動畫等,這些合成圖像單獨編碼,不僅可有效壓縮,而且還便于操作。
對自然視覺對象的編碼,仍是MPEG-4的重點。相對于靜止圖像,MPEG-4采用零樹小波算法(Zerotree WAVelet algorithm)以提供高壓縮比,同時還提供多達11級的空間分辨率和質量的可伸縮性。
對于運動視頻對象的編碼,MPEG-4采用了如圖2所示的編碼框圖,以支持圖像的編碼。
可見,MPEG-4為了支持基于對象的編碼,引入了形狀編碼模塊。為了支持高效壓縮,MPEG-4仍然采用了MPEG-1、MPEG-2中的變換、預測混合編碼框架。
對于一般的任意形狀的視頻對象,MPEG-4編碼后的碼流結構見圖3。
對于實時的極低比特率的應用,如可視電話,MPEG-4視頻編碼采用極低比特率視頻(VLBV)核進行編碼,類似于ITU的H.263直接對矩形視頻編碼,而不采用形狀編碼模塊。編碼后的碼流結構見圖4。
可見,MPEG-4采取了向前兼容H.263,同時,也提供了一些高層特性,如基于內容的編碼。其擴充的方式見圖5。
MPEG-4支持有誤碼信道傳輸下的魯棒性,提供了更好的同步和誤碼恢復機制。
5 場景描述
場景描述主要用于描述以上單個的AV對象如何在一個具體AV場景坐標下的組織與同步等問題。同時還有AV對象和AV場景的知識產權保護等問題。
6 MPEG-4展望
MPEG-4的應用將是廣泛而深遠的。這一新的標準將至少可以應用于以下場合:
?。幔?實時多媒體監(jiān)控;
?。猓?極低比特率下的移動多媒體通信;
?。悖?基于內容存儲和檢索多媒體系統(tǒng);
d) Internet/Intranet上的視頻流與可視游戲;
?。澹?基于面部表情模擬的虛擬會議;
?。妫?DVD上的交互多媒體應用;
?。纾?基于計算機網絡的可視化合作實驗室場景應用;
?。瑁?演播室和電視的節(jié)目制作。
評論