多標籤分類中的特徵提取與選擇方法研究

多標籤分類中的特徵提取與選擇方法研究

《多標籤分類中的特徵提取與選擇方法研究》是依託南京師範大學,由許建華擔任項目負責人的面上項目。

基本介紹

  • 中文名:多標籤分類中的特徵提取與選擇方法研究
  • 項目類別:面上項目
  • 項目負責人:許建華
  • 依託單位:南京師範大學
項目摘要,結題摘要,

項目摘要

多標籤分類是樣本可以同時屬於多個類別(或者標籤)、類別間可以相互重疊的模式識別問題,其特殊性主要體現在樣本到標籤的一對多映射關係和標籤間的相關性。本項目利用約束條件、二階矩、多目標最佳化等手段來描述這些特殊信息,並將其有效地融入到多標籤特徵提取與選擇方法中。研究多標籤樣本的加權分派策略,實現基於數據分解手段與線性判別分析的特徵提取算法;最小化樣本和標籤均方投影誤差、最大化樣本與標籤之間的相關性,構造三者線性組合的最佳化問題來實現特徵提取算法;以多標籤支持向量機為基線算法,設計與實現嵌入式的特徵提取算法。利用多目標進化最佳化技術同時最佳化基於標籤排序與標籤子集的兩個性能指標,完成多標籤特徵選擇任務;設計與實現高效的多標籤線性支持向量機,建立基於順序後退方式的特徵排序與選擇算法。本項目的研究將進一步改善多標籤分類算法的性能和計算複雜性、提高模型的可解釋性,對發展模式識別理論與套用都具有重要意義。

結題摘要

多標籤分類是樣本可以同時屬於多個不分主次類別(或標籤)、類別間可以相互重疊的模式識別問題。本項目完成了五個方面的工作:多標籤的特徵提取、特徵選擇、標籤壓縮編碼和快速分類算法的研究,以及蛋白質多標籤數據集的構造。 在建立依賴性最大特徵降維技術的最小二乘表達後,提出同時最大化特徵方差、特徵與標籤間依賴性的特徵提取算法。總結現有多標籤線性判別分析基礎上,建立加權多標籤線性判別框架,及其在收集四個現有權值後,提出依賴性最大化的權值形式。進一步,構建一個包含12個算法的開放軟體包ML-FE1.12。 分析並指出多標籤評價指標中存在著弱相互矛盾性,提出同時最大化平均精度、最小化Hamming損失、固定特徵數目的多目標特徵選擇算法。依據Hilbert-Schmidt獨立性準則衡量特徵間的條件冗餘性、特徵與標籤間的相關性,構建基於順序前進的過濾式特徵選擇算法。改造二次規劃特徵選擇模型,提出基於Frank-Wolfe和坐標下降法的二次規劃特徵選擇算法、 針對多標籤分類中存在著高維稀疏標籤向量的現象,提出兩個標籤壓縮編碼方法。通過最大化Hilbert-Schmidt獨立性準則,構建線性標籤壓縮編碼方法;將五層自動編碼器與極限學習機的高效訓練策略相結合,提出非線性壓縮編碼方法,據我們了解,這是第一個非線性標籤壓縮編碼技術。 為了更好地開展特提取與選擇研究,設計和實現五個快速的多標籤分類算法。針對經典多標籤支持向量機及其我們先前提出的帶零標籤模型,採用塊坐標下降法加速其最佳化過程。推廣兩類核心向量機,提出基於Frank-Wolfe技術的多標籤核心向量機及其帶零標籤的形式。推廣兩類Lagrange支持向量機,建立基於隨機塊坐標下降法和塊變數收縮策略的多標籤形式。這些成果已經添加到我們的開放軟體包MLC-SVM1.35中。 為了擴大多標籤分類的套用領域並給同行提供開放數據集,我們構造十個蛋白質數據集:四個基於序列組分和六個基於基因本體信息的蛋白質亞細胞定位數據集。 本項目的上述成果提高多標籤分類算法的性能、降低計算複雜性、改善模型的可解釋性,進一步推動模式識別理論與套用的發展。 我們的主頁地址為:http://computer.njnu.edu.cn/Lab/LABIC/LABIC_index.html,可以下載上面提到的相應軟體包和數據集。

相關詞條

熱門詞條

聯絡我們