多視野高維複雜數據融合降維方法與理論研究

多視野高維複雜數據融合降維方法與理論研究

《多視野高維複雜數據融合降維方法與理論研究》是依託浙江大學,由張振躍擔任項目負責人的重大研究計畫。

基本介紹

  • 中文名:多視野高維複雜數據融合降維方法與理論研究
  • 依託單位:浙江大學
  • 項目負責人:張振躍
  • 項目類別:重大研究計畫
項目摘要,結題摘要,

項目摘要

單視野數據的局限性,以及多視野數據的不斷湧現,使得對多視野高維複雜數據的融合分析成為近年來在計算機和生物信息等許多領域需要迫切解決的挑戰性問題。多視野數據指單一對象擁有多種刻畫方式。現有的相關研究多是雙視野數據融合,且缺乏深入的理論分析。多視野數據融合中的許多問題尚處於探索階段。本項目擬研究多視野高維複雜數據融合的方法和理論,內容包括單視野數據的穩定性理論和特點分析,同型多視野數據的協同和一致性降維, 異質多視野數據的多重圖約束線性低秩逼近, 協同稀疏表達、一致性聚類和分類,低秩張量逼近和數據缺損下的多源數據融合等。該項目涉及數學建模、方法設計、基礎理論、數值算法,算法穩定性和複雜性分析等,以及各領域中可能的套用。這是該研究領域必要的和有創行新的探索,其多視野數據融合分析方法的研究成果無論對於數學還是計算科學、生物信息學都有重要的理論和實踐意義,也將會推動高性能科學計算的理論發展。

結題摘要

複雜數據的分析建模及其計算是實際套用中非常困難的課題,尤其是對大數據而言。目前絕大多數數據分析方法都只用於單源(單視角)數據。其有效性、可靠性和說明性非常依賴於數據結構與質量。但實際套用中的絕大多數據,特別是極為複雜的大數據,通常不具備比較好的數據質量與結構。多源或多視角數據分析意圖藉助數據的多源或角度的互補性,提升分析的可靠性與精準性。然而,多源數據之間的不協調性或一定程度上的矛盾性,使得多源數據面臨許多困難和挑戰性的問題。現有的多視角學習方法多是多局限於同一個單視角方法在各個單視角模型的線性性融合或差異性約束等,方法過於簡單,效果不理想,原理性比較缺乏。本項目擬研究多源多視角高維複雜數據的融合分析方法和理論,致力於比較深層次的開創性研究。意圖從數據的視角扭曲刻畫建模入手,從真實信息挖掘恢復、稀疏遴選與多源協同化、多源缺損信息遷移、多源干擾壓制與數據淨化等這些深刻方面,研究多視角學習或多源數據融合的方法,提出具有針對性的多源多視角數據融合的數學模型、理論基礎、解決方案,以及大規模下的算法實現,以及實際問題中的套用。在一定程度上解決目前方法的局限性,提升數據數據分析的準確性與套用的有效性。在項目實施期間,我們取得了八個方面的階段性研究成果。我們提出了一個刻畫各源數據的非線性扭曲模型,刻畫了視角扭曲數據與潛在真實表示之間的關聯性。據此,我們提出了兩種多源一致性降維模型:一致多維尺度分析(UMDS)模型及其kernel形式,以及一致性賦類(UCA)模型。進而將這兩種最佳化模型問題統一轉化為一個非線性特徵值問題,並解決了其快速求解的計算問題以及疊代收斂問題。為了降低多源數據的非協調性,我們採用多源鄰域聯合稀疏化表示,提出了多源一致稀疏鄰域選取方法,並據此提出了一個有效的多源多流形聚類方法,同時也將其用於多源數據的協同化,可以大大提升其他多視角學習方法的聚類精度。對於大規模數據缺損下的協同過濾問題,我們提出了非完全的嵌入遷移方法,利用異源非完全輔助數據改善協同過濾方法的推薦精度。在生物套用方面,我們提出了多視角下物質相互作用分析方法。與其他方法相比,該方法在物質相互作用的識別估計上更加精準。我們還提出了一個消除複雜數據多源干擾因素的方法,通過干擾因數的過濾或抑制,提高基因樣本分類的準確性。我們將該方法套用於腫瘤診斷,以及擬芥南表現型的分

相關詞條

熱門詞條

聯絡我們