非負矩陣分解

非負矩陣分解

非負矩陣分解(Nonnegative Matrix Factorization),簡稱NMF,是由Lee和Seung於1999年在自然雜誌上提出的一種矩陣分解方法,它使分解後的所有分量均為非負值(要求純加性的描述),並且同時實現非線性的維數約減。NMF已逐漸成為信號處理生物醫學工程模式識別計算機視覺圖像工程等研究領域中最受歡迎的多維數據處理工具之一。

基本介紹

  • 中文名:非負矩陣分解
  • 外文名:Nonnegative Matrix Factorization
  • 簡稱:NMF
  • 學科:數學
  • 提出者:Lee和Seung
  • 提出時間:1999年
簡介,定義,套用,圖像分析,文本聚類/數據挖掘,語音處理,機器人控制,生物醫學工程和化學工程,其他套用,

簡介

非負矩陣分解由Lee和Seung於1999年在自然雜誌上提出,它使分解後的所有分量均為非負值(要求純加性的描述),並且同時實現非線性的維數約減。NMF的心理學和生理學構造依據是對整體的感知由對組成整體的部分的感知構成的(純加性的),這也符合直觀的理解:整體是由部分組成的,因此它在某種意義上抓住了智慧型數據描述的本質.此外,這種非負性的限制導致了相應描述在一定程度上的稀疏性,稀疏性的表述已被證明是介於完全分散式的描述和單一活躍分量的描述之間的一種有效數據描述形式。
因為純加性的和稀疏的描述能使對數據的解釋變得方便(少量活躍的分量使數據的組成方式變得清晰)與合理(許多物理信號中不可能存在負餉成分),還因為相對稀疏性的表示方式能在一定程度上抑制由外界變化(如:部分遮擋、光照變化和物體的旋轉等)給特徵提取帶來的不利影響,所以NMF已逐漸成為信號處理、生物醫學工程、模式識別、計算機視覺和圖像工程等研究領域中最受歡迎的多維數據處理工具之一。具體說,它日前已被套用到文本分析與聚類、數字水印、人臉檢測與識別、圖像檢索、圖像復原、語言建模、聲源分類、音樂信號分析與樂器識別、盲信號分離、網路安全、基因及細胞分析等的研究中。

定義

對一個M維的隨機向量
,進行了
次的觀測,記這些觀測為
,取
,其中
,NMF的目標是求出非負的M×L的基矩陣
的係數矩陣
,使得
,用矩陣表示為
從多元統計的觀點看,NMF是在非負性的限制下,在儘可能保持信息不變的情況下,將高維的隨機模式簡化為低維的隨機模式H,而這種簡化的基礎是估計出數據中的本質結構W;從代數的觀點看,NMF是發現數據的一種內在非負(或蘊涵更多性質的)代數分解形式或表示方法;從維數約減的觀點看,因為基矩陣W和係數矩陣H同時由NMF來確定,係數矩陣H並非為數據矩陣V在W上的投影,所以NMF實現的是非線性的維數約減。

套用

NMF的廣泛套用,源於其對事物的局部特性有很好的解釋。在眾多套用中,NMF能被用於發現資料庫中的圖像特徵,便於快速自動識別套用;能夠發現文檔的語義相關度,用於信息自動索引和提取;能夠在DNA陣列分析中識別基因等等。我們將對此作一些大致的描述。

圖像分析

NMF最成功的一類套用是在圖像的分析和處理領域。圖像本身包含大量的數據,計算機一般將圖像的信息按照矩陣的形式進行存放,針對圖像的識別、分析和處理也是在矩陣的基礎上進行的。這些特點使得NMF方法能很好地與圖像分析處理相結合。人們已經利用NMF算法,對衛星發回的圖像進行處理,以自動辨別太空中的垃圾碎片;使用NMF算法對天文望遠鏡拍攝到的圖像進行分析,有助於天文學家識別星體;美國還嘗試在機場安裝由NMF算法驅動的識別系統,根據事先輸入計算機的恐怖分子的特徵圖像庫來自動識別進出機場的可疑恐怖分子。

文本聚類/數據挖掘

文本在人類日常接觸的信息中占有很大分量,為了更快更精確地從大量的文本數據中取得所需要的信息,針對文本信息處理的研究一直沒有停止過。文本數據不光信息量大,而且一般是無結構的。此外,典型的文本數據通常以矩陣的形式被計算機處理,此時的數據矩陣具有高維稀疏的特徵,因此,對大規模文本信息進行處理分析的另一個障礙便是如何削減原始數據的維數。NMF算法正是解決這方面難題的一種新手段。NMF在挖掘用戶所需數據和進行文本聚類研究中都有著成功的套用例子。由於NMF算法在處理文本數據方面的高效性,著名的商業資料庫軟體Oracle在其第10版中專門利用NMF算法來進行文本特徵的提取和分類。為什麼NMF對於文本信息提取得很好呢?原因在於智慧型文本處理的核心問題是以一種能捕獲語義或相關信息的方式來表示文本,但是傳統的常用分析方法僅僅是對詞進行統計,而不考慮其他的信息。而NMF不同,它往往能達到表示信息的局部之間相關關係的效果,從而獲得更好的處理結果。

語音處理

語音的自動識別一直是計算機科學家努力的方向,也是未來智慧型套用實現的基礎技術。語音同樣包含大量的數據信息,識別語音的過程也是對這些信息處理的過程。NMF算法在這方面也為我們提供了一種新方法,在已有的套用中,NMF算法成功實現了有效的語音特徵提取,並且由於NMF算法的快速性,對實現機器的實時語音識別有著促進意義。也有使用NMF方法進行音樂分析的套用。復調音樂的識別是個很困難的問題,三菱研究所和MIT(麻省理工學院)的科學家合作,利用NMF從演奏中的復調音樂中識別出各個調子,並將它們分別記錄下來。實驗結果表明,這種採用NMF算法的方法不光簡單,而且無須基於知識庫。

機器人控制

如何快速準確地讓機器人識別周圍的物體對於機器人研究具有重要的意義,因為這是機器人能迅速作出相應反應和動作的基礎。機器人通過感測器獲得周圍環境的圖像信息,這些圖像信息也是以矩陣的形式存儲的。已經有研究人員採用NMF算法實現了機器人對周圍對象的快速識別,根據現有的研究資料顯示,識別的準確率達到了80%以上。

生物醫學工程和化學工程

生物醫學和化學研究中,也常常需要藉助計算機來分析處理試驗的數據,往往一些煩雜的數據會耗費研究人員的過多精力。NMF算法也為這些數據的處理提供了一種新的高效快速的途徑。科學家將NMF方法用於處理核醫學中的電子發射過程的動態連續圖像,有效地從這些動態圖像中提取所需要的特徵。NMF還可以套用到遺傳學和藥物發現中。因為NMF的分解不出現負值,因此採用NMF分析基因DNA的分子序列可使分析結果更加可靠。同樣,用NMF來選擇藥物成分還可以獲得最有效的且負作用最小的新藥物。

其他套用

此外,NMF算法在環境數據處理、信號分析與複雜對象的識別方面都有著很好的套用。近年來採用NMF思想的套用才剛展開,相信以後會有更多的成功套用。這些成功的套用反過來也將促進NMF的進一步研究。

相關詞條

熱門詞條

聯絡我們