組中選優機器學習問題建模和算法研究

項目摘要

組中選優是機器學習尚待研究具有挑戰性的新問題，具有常規機器學習所沒有的新特點。本項目針對組間同類樣本之間的比較帶來負面影響的問題，研究降低其影響的數據預處理方法，以及在建模中對組間同類樣本不進行比較的嵌入方法；在此基礎上，設計體現分組特點的泛化性能定量指標，建立具有強泛化性能和組內非線性可分處理能力的組中選優機器學習新模型；並針對最優樣本與非最優樣本數量極度不平衡問題，研究不使用類權重的處理方法；分析新模型的性質，給出大規模問題時的高效算法；結合工藝參數尋優和投資最佳化等領域的組中選優問題，開展新模型、新算法的套用研究。組中選優作為一個新的基礎性機器學習問題，本項目的研究可以豐富現有機器學習的模型和算法，拓廣現有機器學習的套用範圍，既有很強的創新性，亦有重要的套用價值。

結題摘要

在自然、經濟和社會領域，存在大量樣本以組為單位出現，任務為選出每組最優樣本的組中選優問題。組中選優問題具有常規機器學習問題所沒有的新特點。首先，組中選優問題僅需學習組內不同類樣本之間的差異性，無需學習組間同類樣本之間的相似性；其次，組間同類樣本之間相似性的學習甚至會帶來負面影響。為此必須發展適合這些特點的機器學習新模型和相關算法。本項目主要研究組中選優機器學習問題的數據預處理、建模、算法和在相關領域的套用。在組中選優機器學習問題的數據預處理方面，我們給出了保持組內不同類樣本差異條件下，減弱組間同類樣本比較影響的組內歸一化和組內比例化方法。通過在約束中表達“僅需學習組內不同類樣本之間的差異性，無需學習組間同類樣本之間的相似性”的要求，我們建立了組中選優機器學習問題模型GSVMs，該模型為凸二次規劃問題，具有傳統支持向量機模型（support vector machine, SVM）的所有優點，即強泛化能力和非線性處理能力，不會陷入局部極小值等。針對最優和非最優樣本極度不平衡問題，我們提出了給定經驗風險水平的模型，通過精確保證給定訓練樣本的經驗風險水平，解決了兩類樣本極度不平衡問題。進一步地，我們給出了組中選優機器學習模型的最小序貫算法，使之能處理大規模數據。最後將組中選優機器學習模型套用於新股申購問題，取得了比傳統模型更高的預測準確率和收益率，表明了組中選優機器學習模型和算法的有效性和優越性。 GSVMs是傳統SVM的一種推廣，當學習樣本僅有一組時，GSVMs就退化為傳統的SVM。組中選優問題在現實世界中廣泛存在，GSVMs具有廣闊的套用前景。

組中選優機器學習問題建模和算法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條