《基於分層貝葉斯非參數模型的聚類方法》是依託華僑大學,由範文濤擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於分層貝葉斯非參數模型的聚類方法
- 項目類別:青年科學基金項目
- 項目負責人:範文濤
- 依託單位:華僑大學
項目摘要,結題摘要,
項目摘要
隨著數據量的日益增多,如何能有效的把所獲得的數據按照其內在相似性進行分類是目前許多領域中都急需解決的問題。本項目根據分層貝葉斯非參數模型的特點,利用特徵選擇技術與機器學習算法,研究新型的並適用於實時數據及大規模數據的聚類算法,使其能夠為多種實際聚類問題提供良好的解決方案。本項目首先利用分層Dirichllet過程構建合適的分層貝葉斯非參數模型;然後構建一個融合了特徵選擇方法和所提出模型於一體的框架結構,以解決高維數據聚類問題;針對所提出的模型開發有效的模型學習算法,並針對流數據和大規模數據提出線上學習算法,用以同時估計模型參數和模型複雜度;最後,將所提出的模型有效套用在某些實際聚類問題當中(如圖像自動分類、視頻背景建模與前景提取、文本自動分類等)。本項目的開展一方面能對基於混合模型和分層貝葉斯非參數模型的聚類分析方法的研究起到推動作用,另一方面也能夠促進聚類分析在新領域的套用與發展。
結題摘要
隨著數據量的日益增多,如何能有效的把所獲得的數據按照其內在相似性進行分類是目前許多領域中都急需解決的問題。本項目旨在開發基於新的機率分布混合模型的聚類分析方法從而能夠為多種實際聚類問題提供良好的解決方案。 在基於混合模型的聚類方法中,選擇一個適當的機率分布作為基礎分布來描述數據對聚類性能有著至關重要的影響。根據實際套用的不同,其相關數據往往具有不同的複雜特性,而不同類型的數據則需要採用恰當的機率分布混合模型來進行聚類分析。在本項目中,項目組分別構建了基於Dirichlet、廣義Dirichlet、逆Dirichlet、Beta-Liouville和逆Beta-Liouville分布的混合模型(包括參數模型、貝葉斯非參數模型和分層貝葉斯非參數模型)用來做聚類分析。 由於在高維數據中存在大量的冗餘特徵,從而容易導致模型複雜高,造成分析特徵、訓練模型的時間長、聚類效率下降等問題。因此,為了能夠剔除不相關的冗餘特徵,並能夠更加有效地處理多維數據以提高建模能力和聚類結果,我們提出了無監督特徵選擇方法,並將其和在前一階段提出的混合模型整合於同一模型框架中,從而能夠系統地同時進行模型參數的估算和特徵的選取。 由於傳統的混合模型學習算法較適用於簡單模型的訓練和學習,且還需要增加額外的模型選擇步驟來計算模型複雜度,另外常會出現“過擬合”(over-fitting)等問題。因此,當構建好混合模型後,需要設計開發有效的模型學習方法。在本項目中,針對不同的混合模型,項目組提出了多種基於變分推導(Variational Inference)和期望傳播(Expectation Propagation)算法的模型學習方法,從而能夠準確地估算模型的參數和複雜度。項目組還成功地提出了基於KD樹結構的加速變分推導算法來有效學習不同的混合模型,使其能夠更有效地處理大規模數據的聚類問題。 本項目所提出的基於混合模型的聚類分析方法被有效地套用於多種實際聚類問題當中,如:三維物體識別、文本文檔聚類、基因表達數據分類、人體行為識別、人臉表情識別、視頻分割、圖像分割等。