《基於量子進化算法和模型組合的高維數據特徵選擇》是依託電子科技大學,由楊國武擔任醒目負責人的面上項目。
基本介紹
- 中文名:基於量子進化算法和模型組合的高維數據特徵選擇
- 依託單位:電子科技大學
- 項目類別:面上項目
- 項目負責人:楊國武
項目摘要,結題摘要,
項目摘要
隨著網際網路時代的到來,大數據已經成為當前信息領域最為熱門的研究方向。本項目研究在機器學習的背景下,實現高維數據的特徵選擇。主要是針對四個方面的研究:量子進化算法的改進;基於量子進化算法的高維特徵選擇;基於模型組合的高維特徵選擇;基於特徵選擇方法可靠性的模型診斷。針對高維數據進行特徵選擇,有利於減少計算時間,實現數據的可視化,避免維度災難與過擬合。因此關於這些內容的研究非常重要。本項目首先針對量子進化算法的性能進行改進,包括量子進化算法終止準則的設計和三值量子進化算法;然後分析傳統的過濾、封裝、嵌入方法的缺點;針對傳統的嵌入方法不易調參,封裝方法耗時長、易過擬合等缺點,研究如何通過量子進化算法高效快速、無需定製地實現高維數據的特徵選擇;接著針對各類特徵選擇方法的不穩定性,研究如何使用模型組合的方法精準地實現特徵選擇;最後研究如何評估各類特徵選擇方法的可靠性。
結題摘要
我們基於平均收斂率提出了一種有效的終止準則,有助於量子進化神經網路達到安全的終止條件。基於平均收斂率的終止準則能夠適時地終止量子進化神經網路的訓練,克服基於最優解生成機率的終止準則的局限性。針對有標籤的離散數據,提出了一種基於隱高斯過程來估計類條件密度的生成分類模型,能有效的針對小規模離散數據進行建模。 各種模型選擇方法可以用來尋找協變數的稀疏子集以解釋生物信息學中的回響。當協變數的數量很大時,即使數據稍有變化,選擇也可能非常不穩定。我們提出了基於變數選擇偏差的方法,來找到在未來研究中有更高機會得到證實的最重要的協變數。最小最大速率自適應非參數回歸已在文獻中獨立或不相關誤差的假設下進行了深入研究。我們構造的自適應估計器能在相應列表中的每個相關性規範下,針對每個函式類自動獲得最小收斂速度。 我們提出了一種基於學習的Hash推薦框架——離散個性化排序方法(DPR),DPR與現有的具有競爭力的方法相比具有明顯的優越性。提出了一種基於離散排序的矩陣分解算法(DRMF),該算法將用戶對物品的成對偏好建模成一系列的離散二次規劃問題,學習出用戶和物品的二進制編碼。實驗表明了DRMF優於經典的基於哈希的推薦算法我們提出了一種有效的方法,稱為噪聲過濾器網路(NF-Net),以解決訓練乳腺腫瘤分類模型時標籤的噪音問題。我們合併兩個softmax層進行分類,為了增強清潔標籤的效果,還設計了一個師生模組用於提煉清潔標籤的知識。我們提出了一種新的無監督域自適應方法TarGAN,可以成功地分解目標生成器的類和樣式代碼,並基於GAN的最新進展生成具有給定類標籤的Target樣本。實驗表明,我們提出的TarGAN可以勝過現有的最新領域自適應方法。