非平衡數據分類模型與算法研究的論文作者是翟雲。
基本介紹
- 中文名:非平衡數據分類模型與算法研究
- 論文作者:翟雲著
- 導師:楊炳儒指導
- 學位級別:工學博士
非平衡數據分類模型與算法研究的論文作者是翟雲。
非平衡數據分類模型與算法研究的論文作者是翟雲。副題名外文題名Research on algorithm and model in classifying imbalanced datasets論文作者翟雲著導師楊炳儒指導...
不均衡數據分類問題是機器學習和模式識別領域的研究重點。陶新民、劉福榮和杜寶祥著的《不均衡數據SVM分類算法及其套用》以SVM為分類器給出基於0DR的欠抽樣、基於譜聚類的欠抽樣以及基於陰性免疫的過抽樣算法。《不均衡數據SVM分類算法及其...
應該使用不同的算法進行比較。決策樹往往在類別不均衡數據上表現不錯。它使用基於類變數的劃分規則去創建分類樹,因此可以強制地將不同類別的樣本分開。流行的決策樹算法有:C4.5、C5.0、CART和Random Forest等。
《基於半監督集成學習的不平衡數據研究》是依託中國科學技術大學,由陳歡歡擔任項目負責人的青年科學基金項目。中文摘要 多類別數據不平衡問題(即數據中的一類樣本在數量上遠多於另一類或幾類)廣泛存在於各種實際套用中。傳統的學習算法容易...
2. 提出了一種基於不確定性減少的大數據模型樹(ELM-Tree)學習算法,該算法能有效的從大數據中挖掘分類規則。建立了一種基於MapReduce和投票機制的隨機權網路樣例選擇方法,為大數據並行挖掘提供了一種行之有效的方法。研究了一種基於...
本人創造性地提出“基於分割聚類分層抽樣邏輯回歸的失衡數據集預測模型”和“基於聚類抽樣K近鄰核變換的失衡數據集分類模型”,兩種方法從失衡數據的重採樣和算法改進兩方面同時入手,分析和研究採樣方法與核心算法之間的內在關聯性,並有針對...
理論研究主要包括:(1)非平衡互動效應面板數據模型估計量的研究,分別基於泛函主成分分析(FPCA)和EM算法構建了兩個估計量。其中,前者適用於平滑因子的估計,後者則具有普適性。(2)把互動效應面板模型擴展到三位數據結構,為靜態和...
本項目主要研究面向非均衡磁共振影像數據的魯棒特徵提取方法和魯棒分類方法用於魯棒病腦檢測。項目對腦磁共振圖像的電子噪聲建模,設計相關的模型參數學習算法以及參數最佳化算法,給出基於低秩分解的魯棒分類模型及最佳化求解算法,使得分類器對環境...
《類別不平衡學習:理論與算法》是2017年清華大學出版社出版的圖書,作者是於化龍。內容簡介 類別不平衡學習是機器學習與數據挖掘領域的重要分支之一,其在很多套用領域中均發揮著重要作用。本書首先系統地介紹了與類別不平衡學習相關的一些...
隨著科學技術的高速發展,縱向型函式數據,就是個體重複觀測,且每次觀測是以函式的形式出現,是目前湧現得越來越多的數據類型。關於樣本中的一些重要參數的比較與檢測成為重要的科學問題。本項目的研究內容大體分類三種。 第一類問題是檢測...
本項目主要研究在高維小樣本情況下,集成學習方法在解決模式分類問題中的相關理論、算法及套用。所取得的主要成果集中在下述幾個方面:集成學習在不平衡數據分類中的套用,基於深度學習的特徵提取與降維,回歸和分類模型中的變數選擇以及相關...
對二類別分類問題,研究了一種基於全方位最佳化算法的MTS分類方法——MTSO,也研究了基於粗糙集理論的特徵變數篩選方法和結合ROC曲線分析法的閾值確定新方法。提出了一種基於切比雪夫定理的機率閾值模型的二類別不平衡數據分類方法MTSOP。對多...
1.2.9數據質量評估 1.3本書內容結構安排 本章參考文獻 第2章國內外研究進展 2.1引言 2.2高維數據實體分辨的研究進展 2.2.1實體分辨方法 2.2.2多目標蟻群算法 2.2.3特徵選擇穩定性 2.2.4不平衡數據分類方法 2.3...
項目組提出了基於多數類代價和少數類價值評估的多標籤不平衡數據的分類算法。我們將最大相關最小冗餘的特徵選擇算法與鏈分類器相結合,同時考慮了標記之間的相關性與冗餘性,以減少擴充的屬性個數,降低計算複雜度,得到一個結構簡單且分類...
9.1 分類問題與模型訓練 232 9.1.1 分類問題描述 232 9.1.2 分類問題舉例與泛化問題 233 9.1.3 分類模型的常見評價指標 235 9.2 決策樹及ID3算法 236 9.2.1 決策樹概述 236 9.2.2 ID3算法 238 9.3 C4....
相似性查詢從數據庫中查詢語義相關對象,是信息領域諸多套用的基礎。移動網際網路、社交網路等新套用帶來了結構多樣、語義豐富、具有關聯關係的海量高維的複雜數據。基於哈希的相似性查詢以研究有效的查詢方案為核心,成為高維數據近似相似性查詢...
算法使用此分析的結果來定義用於創建挖掘模型的最佳參數。然後,這些參數套用於整個數據集,以便提取可行模式和詳細統計信息。算法根據您的數據創建的挖掘模型可以採用多種形式,這包括:說明數據集中的事例如何相關的一組分類。預測結果並描述...
1.3數據質量度量6 1.4匿名隱私保護的主要研究方向7 1.5隱私保護數據發布研究展望8 參考文獻8第2章k匿名組規模的上界討論10 2.1引言10 2.2現有算法的k匿名組規模上界10 2.3基於取整劃分函式的k匿名算法11 2.3.1均衡二...
(2)對不平衡數據集的支持向量機研究:a. 建立了最小二乘模糊單分類支持向量機模型;b. 對正包和負包不平衡的多示例問題,構建了逐次疊代的最小二乘支持向量機模型;c. 構建了最小二乘雙胞胎支持向量機的多示例模型和求解算法。...
經過三年的理論研究與實踐,我們釐清了問題,給出了形式化的描述,構建了基於切換點的數據模型,並設計了適用於多層次網路的最短路徑算法;通過對內外存數據的再平衡與套用分層壓縮,有效提高了多模式路徑規劃的執行效率;設計了一種基於...
根據非負塊配準模型的分析,本書提出非負判別局部塊配準模型,克服了經典非負矩陣分解模型的缺點,提高了非負矩陣分解模型的分類性能。為了克服經典非負矩陣分解的最佳化算法收斂速度慢的缺點,本書提出線上搜尋中利用牛頓法快速搜尋步長,提出...
在不平衡數據的分類方面,利用大量試驗研究了數據集的不平衡度對敏感損失的Boosting算法性能的影響,並提出了一種新的集成分類算法IRUSRT;受限玻爾茲曼機(RBM)是一種有效的特徵提取和表示算法,我們將它與集成學習相結合,提出了相關的分類...
該模型的任務與上一個模組(實驗設計)相同,只不過該模型針對的是不平衡數據集,鑒於不平衡數據集的特殊性,該模型中的算法主要是針對不平衡數據集 多實例學習算法的實驗 在該模組,研究者可以對多實例數據集進行分類,在這種分類情況下...