音調索引

簡介

隨著多媒體技術的不斷發展，音調索引作為基於內容的音樂檢索的一個分支為眾多用戶提供了一種最新的檢索方式，是指用戶能夠依據對哼唱音符起始點識別，在較大規模的音樂資料庫中搜尋出目標歌曲。對特徵音調檢索的哼唱音符起始點智慧型識別是保障音調檢索質量的關鍵前提，由此也成為了計算機音樂領域亟待解決的主要任務。

面向特徵音調檢索的音符起始點智慧型識別方法對各個哼唱音符起始點進行多層次區分性特徵表達，完成面向特徵音調檢索的音符起始點智慧型識別是解決完成上述任務的有效手段，不少方法被提出來，例如一種基於內容和旋律的面向特徵音調檢索的音符起始點智慧型識別方法。該方法先獲取面向特徵音調檢索的哼唱音符起始點各種類型特徵，將音符起始點智慧型識別分為哼唱音符起始點訓練、特徵識別、失真測度三個不同的階段，在此基礎上完成對面向音頻檢索的音符起始點智慧型識別。該方法識別穩定性較強，但是存在成本較高的問題。另一種基於引入幀間相關信息的面向特徵音調檢索的哼唱音符起始點智慧型識別方法。該方法先利用相繼的複數幀組成哼唱音符起始點特徵參數向量，計算出複數幀段輸入HMM的輸出機率分布函式，完成面向特徵音調檢索的哼唱音符起始點智慧型識別。該方法識別效率較高，但是採用當前方法進行語音識別時，無法進行旋律基音提取，存在無法識別出哼唱音符起始點問題。

音調

聲音頻率的高低叫做音調（Pitch），是聲音的三個主要的主觀屬性，即音量（響度）、音調、音色（也稱音品）之一。表示人的聽覺分辨一個聲音的調子高低的程度。音調主要由聲音的頻率決定，同時也與聲音強度有關。對一定強度的純音，音調隨頻率的升降而升降；對一定頻率的純音、低頻純音的音調隨聲強增加而下降，高頻純音的音調卻隨強度增加而上升。

音調的高低還與發聲體的結構有關，因為發聲體的結構影響了聲音的頻率。大體上，2000 赫茲以下的低頻純音的音調隨響度的增加而下降，3000 赫茲以上高頻純音的音調隨響度的增加而上升。對音調可以進行定量的判斷。音調的單位稱為美（mel）：取頻率1000赫茲、聲壓級為40 分貝的純音的音調作標準，稱為1000 美，另一些純音，聽起來調子高一倍的稱為2000 美，調子低一倍的稱為500 美，依此類推，可建立起整個可聽頻率內的音調標度。

語音識別

語音識別是將人類的聲音信號轉化為文字或者指令的過程。語音識別以語音為研究對象，它是語音信號處理的一個重要研究方向，是模式識別的一個分支。語音識別的研究涉及微機技術、人工智慧、數位訊號處理、模式識別、聲學、語言學和認知科學等許多學科領域，是一個多學科綜合性研究領域。

根據在不同限制條件下的研究任務，產生了不同的研究領域。這些領域包括：根據對說話人說話方式的要求，可分為孤立字（詞）、連線詞和連續語音識別系統；根據對說話人的依賴程度，可分為特定人和非特定人語音識別系統；根據辭彙量的大小，可分為小辭彙量、中等辭彙量、大辭彙量以及無限辭彙量語音識別系統。主流的大辭彙量語音識別系統多採用統計模式識別技術。典型的基於統計模式識別方法的語音識別系統由以下幾個基本模組所構成：

音調索引

基本介紹

簡介

音調

語音識別

計算機音樂

相關詞條

熱門詞條