《高維生物數據的PLS特徵選擇方法研究》是依託福建師範大學,由游文杰擔任項目負責人的面上項目。
基本介紹
- 中文名:高維生物數據的PLS特徵選擇方法研究
- 項目類別:面上項目
- 項目負責人:游文杰
- 依託單位:福建師範大學
項目摘要,結題摘要,
項目摘要
基於統計計算與機器學習理論方法,針對高維數、小樣本、高噪聲、強相關和多類別的生物數據,研究偏最小二乘特徵選擇模型算法。給出考慮互動效應的多特徵選擇算法,篩選較小主效應且有較強互動效應的信息特徵;引入遞歸特徵消除策略的多特徵選擇算法,提升所選子集的一致性和緊緻性;給出多擾動的集成特徵選擇方法,增強所選特徵子集的穩健性;提出選維與降維的特徵級信息融合框架,挖掘高維數據的潛結構信息;開發實現計算分析工具。將研究算法套用到全基因組水平的腫瘤基因表達分析中,篩選出腫瘤特異表達基因,提取表達模式和共調節基因,輔助生物學家理解和解釋腫瘤基因的特異表達機制,達到有效輔助生物實驗的水平。本研究計畫,有助於加強高維小樣本多類別生物數據的處理方法研究,促進生物信息處理和前沿問題的理解,對數據挖掘方法與生物學科的結合研究有著信息學與生物學意義。
結題摘要
基於統計計算與機器學習的理論與方法,研究適合於生物數據特點的特徵工程(特徵表示和特徵選擇),具體包括: (1)具有互動效應的多源信息融合的特徵表示。DNA結合蛋白在各種細胞過程中發揮著極其重要的作用,在理解和解釋蛋白質功能中,識別DNA結合蛋白是一個非常重要的任務。給出基於蛋白質序列數據的特徵表示與選擇性集成。首先,提出具有互動效應的多信息融合的特徵表示模型,它同時考慮了物化屬性、進化信息以及殘基間跳空距離的互動效應。其次,給出基於跳空距離的選擇性集成算法,它通過選擇得到具有差異性的基分類器,提升整體分類器的泛化能力。相關研究結果給出了多源信息互動融合特徵表示的數學模型與算法,以及基於參數擾動的選擇性集成分類算法,實驗表明它們可以有效地用於預測DNA結合蛋白,並且所提互動融合特徵表示有利於從互動作用的視角去理解DNA結合蛋白在細胞中的功能與作用。(2)基於偏最小二乘的多擾動集成的特徵選擇。腫瘤是一種複雜的基因疾病,是由於某些染色體上DNA損傷而導致的細胞內基因異常表達。識別腫瘤疾病狀態之間發生特異表達的基因及其功能是研究腫瘤疾病發病機理的一項重要任務。針對腫瘤微陣列數據的特點,引入不同的擾動機制,給出多擾動集成的基因選擇的分析框架;利用PLS多基因度量方法,在該框架下發展出新的基於PLS集成基因選擇方法。該算法基於子集的整體效應,能夠識別出具有差異表達的基因,同時還能識別出差異表達信號微弱的基因。算法基於多重擾動機制,能夠識別出一系列不同的基因子集,這些子集的長度較小且整體判別能力較強。在只有有限樣例的人類腫瘤微陣列數據集上進行測試,算法能夠識別出眾多不同的腫瘤特異基因子集,這些子集在獨立測試集上均可實現100%的識別。在對子集中的弱差異表達基因做進一步的分析,發現它們中間有些是重要的潛在基因,存在對腫瘤疾病的間接表達。因此,相對於傳統方法僅能得到一組的特異基因子集,所提算法所識別出的一系列不同的基因子集及其弱差異表達基因,能夠提高對腫瘤疾病分子特徵的理解,能夠更全面的認識腫瘤基因的特異表達模式,對輔助理解腫瘤發生髮展的機理、尋找腫瘤藥物治療的分子靶標,以及可靠的分子診斷與治療,提供新的視角。 本研究加強了相關生物數據的處理方法,促進了生物信息處理和前沿問題的理解,對於數據挖掘方法與生物學科的結合研究有著信息學與生物學意義。