基本介紹
- 中文名:音調索引
- 外文名:Melody Index
- 學科:計算機科學
- 定義:基於音調來進行內容檢索
- 技術:語音識別技術和索引技術
- 套用:音樂庫
簡介,音調,語音識別,計算機音樂,
簡介
隨著多媒體技術的不斷發展,音調索引作為基於內容的音樂檢索的一個分支為眾多用戶提供了一種最新的檢索方式,是指用戶能夠依據對哼唱音符起始點識別,在較大規模的音樂資料庫中搜尋出目標歌曲。對特徵音調檢索的哼唱音符起始點智慧型識別是保障音調檢索質量的關鍵前提,由此也成為了計算機音樂領域亟待解決的主要任務。
面向特徵音調檢索的音符起始點智慧型識別方法對各個哼唱音符起始點進行多層次區分性特徵表達,完成面向特徵音調檢索的音符起始點智慧型識別是解決完成上述任務的有效手段,不少方法被提出來,例如一種基於內容和旋律的面向特徵音調檢索的音符起始點智慧型識別方法。該方法先獲取面向特徵音調檢索的哼唱音符起始點各種類型特徵,將音符起始點智慧型識別分為哼唱音符起始點訓練、特徵識別、失真測度三個不同的階段,在此基礎上完成對面向音頻檢索的音符起始點智慧型識別。該方法識別穩定性較強,但是存在成本較高的問題。另一種基於引入幀間相關信息的面向特徵音調檢索的哼唱音符起始點智慧型識別方法。該方法先利用相繼的複數幀組成哼唱音符起始點特徵參數向量,計算出複數幀段輸入HMM的輸出機率分布函式,完成面向特徵音調檢索的哼唱音符起始點智慧型識別。該方法識別效率較高,但是採用當前方法進行語音識別時,無法進行旋律基音提取,存在無法識別出哼唱音符起始點問題。
音調
聲音頻率的高低叫做音調(Pitch),是聲音的三個主要的主觀屬性,即音量(響度)、音調、音色(也稱音品) 之一。表示人的聽覺分辨一個聲音的調子高低的程度。音調主要由聲音的頻率決定,同時也與聲音強度有關。對一定強度的純音,音調隨頻率的升降而升降;對一定頻率的純音、低頻純音的音調隨聲強增加而下降,高頻純音的音調卻隨強度增加而上升。
音調的高低還與發聲體的結構有關,因為發聲體的結構影響了聲音的頻率。大體上,2000 赫茲以下的低頻純音的音調隨響度的增加而下降,3000 赫茲以上高頻純音的音調隨響度的增加而上升。對音調可以進行定量的判斷。音調的單位稱為美(mel):取頻率1000赫茲、聲壓級為40 分貝的純音的音調作標準,稱為1000 美,另一些純音,聽起來調子高一倍的稱為2000 美,調子低一倍的稱為500 美,依此類推,可建立起整個可聽頻率內的音調標度。
語音識別
語音識別是將人類的聲音信號轉化為文字或者指令的過程。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智慧、數位訊號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域。
- 信號處理及特徵提取模組。該模組的主要任務是從輸入信號中提取特徵,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以儘可能降低環境噪聲、信道、說話人等因素對特徵造成的影響。
- 聲學模型。典型系統多採用基於一階隱馬爾科夫模型進行建模。
- 發音詞典。發音詞典包含系統所能處理的辭彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。
- 語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但各種系統普遍採用的還是基於統計的N元文法及其變體。
- 解碼器。解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大機率輸出該信號的詞串。
語音識別技術有著非常廣泛的套用領域和市場前景。在語音輸入控制系統中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的回響,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利於縮短系統的反應時間,使人機交流變得簡便易行,比如用於聲控語音撥號系統、聲控智慧型玩具、智慧型家電等領域。在智慧型對話查詢系統中,人們通過語音命令,可以方便地從遠端的資料庫系統中查詢與提取有關信息,享受自然、友好的資料庫檢索服務,例如信息網路查詢、醫療服務、銀行服務等。
計算機音樂
計算機音樂是指利用計算機進行音樂信息處理的技術。計算機具有強大的信息處理能力, 而音樂雖然最終表現為聲波的振動,但聲波只是音樂信息的載體,音樂信息本身則完全可以用計算機來處理。音樂信息具有不同的層次,粗略地可分為信號層、內部表示層和人機界面層。信號層上的音樂信息是符合一定標準的數字指令,可以被配有 MIDI接口的任何電子樂器接受並實時轉換成具有聽覺效果的聲音;內部表示層上的音樂信息按某種計算機可讀的格式儲存並接受處理;人機界面層上的音樂信息則表現為人類可讀的樂譜。