大數據背景下面向操作模式的約簡算法研究

項目摘要

隨著大數據計算的崛起，大數據約簡算法研究對於約簡理論發展及套用都具有重要的意義。然而，受數據傾斜問題以及隨機性現象的干擾，傳統約簡算法的性能難以滿足複雜套用的需求。本項目基於MapReduce以及操作模式這一典型套用，研究高效的大數據約簡算法。包括：（1）快速約簡算法。針對數據傾斜對約簡效率的干擾問題，探索基於MapReduce排序技術的約簡算法，並與三種傳統約簡算法進行對比，證明新算法在面臨數據傾斜時的計算優勢；（2）最佳約簡算法。針對隨機性現象造成的約簡結果與套用不匹配問題，提出最佳約簡概念，並結合操作模式最佳化對象，定義面向複雜工業過程的背景知識描述方法，設計不依賴於屬性重要度的最佳約簡算法；（3）研究一套基於大數據的、面向操作模式的約簡定製方法。本研究不僅對大數據計算與數據約簡的融合具有重要的意義，也為約簡算法在複雜工業過程最佳化控制方法（尤其是操作模式）中的套用提供理論支持與實際案例

結題摘要

按照項目計畫，本項目面向工業大數據背景，研究高效的、與實際套用背景匹配的約簡算法。研究內容主要分為三大部分：1，快速約簡算法；2，最佳約簡算法；3，約簡定製方法及其套用。經過三年的努力，本項目組獲得了如下重要結果：1，提出一種基於排序技術的快速約簡算法（FPRA）。該算法利用核屬性判決代替傳統的屬性重要度，形成一種僅包含排序、比較以及刪除操作的新型約簡算法，其複雜度約為O(|U||C||R|)，為當前最快速的約簡算法之一，是啟發式約簡算法結構的重大創新突破；2，提出一種基於mapreduce的快速大數據約簡算法。該算法為FPRA進一步最佳化的結果，其僅保留排序與比較操作，並設計新型，使之利用mapreduce大數據計算框架的shuffle機制實現自動、高效排序，該算法僅需要|C|+1個job，具有線性的時間複雜度，相比於傳統方法的(2|C|-|R|+1) *|R|/2個job，本算法成為當前最快速的大數據約簡算法；3，提出一種基於屬性優先權序列的最佳約簡算法。該算法可以在優先權序列的約束下計算最佳約簡，確保與套用需求匹配。在實現形式上，該算法是第一種採取遞歸結構的約簡算法，是約簡理論在實現形式上的創新與突破；4，提出了一種適用於決策表的三支決策模型（3WD-D）。該模型主要針對傳統三支模型在處理決策表數據時所產生的降維現象，定義了決策陷阱的概念，實現對決策表的三支分類與知識描述，是三支決策理論的創新與完善。5，提出了約簡定製策略。在3WD-D的基礎上，定義面向複雜不一致數據的多種可辨識矩陣以及規則類型，並建立完備的選擇策略，實現基於實際需求的約簡定製方法；6，針對連續數據構建可辨識矩陣時引發的 “邊緣問題”，提出一種直接用於連續數據的可辨識矩陣構建方法，該方法可有效拓寬約簡定製方法的適用範圍，在高爐鐵水矽含量預測中的套用表明了該方法的有效性。綜上所述，本項目在大數據約簡與約簡定製方面做出了較大的創新與較為出色的貢獻，並在高爐鐵水矽含量預測等套用中具有了較好的成效。

大數據背景下面向操作模式的約簡算法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條