智慧型數據分析

智慧型數據分析

智慧型數據分析,它是指運用統計學、模式識別、機器學習、數據抽象等數據分析工具從數據中發現知識的分析方法。智慧型數據分析的目的是直接或間接地提高工作效率,在實際使用中充當智慧型化助手的角色,使工作人員在恰當的時間擁有恰當的信息, 幫助他們在有限的時間內作出正確的決定。

智慧型數據分析方法主要為兩種類型,一是數據抽象(Data Abstraction ;二是數據挖掘(Date Mining)。

基本介紹

  • 中文名:智慧型數據分析
  • 外文名: Intelligent Data Analysis
  • 簡稱:IDA
  • 類型:數據抽象、數據挖掘
  • 目的:提取原始信息中的精華部分
  • 實質:智慧型分析方法
簡介,目的,歷史,類型,常見方法比較,決策樹,關聯規則,粗糙集,模糊數學分析,人工神經網路,混沌分型理論,自然計算分析,大數據下的IDA,

簡介

目的

數據已成為資訊時代的重要資源,數據被採集後在企業之間或企業內部的信息系統中共享,數據量的增加導致高效的基於計算機的分析方法的出現,如智慧型數據分析,它是指運用統計學、模式識別、機器學習、數據抽象等數據分析工具從數據中發現知識的分析方法。
智慧型數據分析的目的是直接或間接地提高工作效率,在實際使用中充當智慧型化助手的角色,使工作人員在恰當的時間擁有恰當的信息, 幫助他們在有限的時間內作出正確的決定。信息系統中積累的大量數據,其原始數據的價值很小,只有通過智慧型化分析方法抽取其中的精華,才能轉變為信息"金礦",為人類造福。

歷史

智慧型數據分析方法研究已經有數十年的歷史,研究人員將人工神經網路、貝葉斯網路、決策樹、遺傳算法,基於範例的推理法、歸納邏輯編程法等智慧型數據分析方法套用到具體工作中。先後取得了很大的突破!解決了許多疑難問題。

類型

智慧型數據分析方法主要為兩種類型,一是數據抽象(Data Abstraction ),主要涉及數據的智慧型化解釋,以及如何將這種解釋以可視化或符號化的形式表示出來;二是數據挖掘(Date Mining),主要涉及從數據中分析和抽取知識,目的是為了支持業務管理或預測趨勢。

常見方法比較

當前世界依然迎來了大數據時代,隨著多媒體等多種技術的套用, 社會中的相關領域時刻都湧現大量的數據,增加了大數據背景下的智慧型數據分析技術了技術處理以及分析的難度。通常情況下大數據具有複雜性,而且還具有數量大、分散式的特點, 這樣就必須要採取新的技術方法對數據進行處理, 因此智慧型分析技術在數據的處理數據中具有非常重要的意義。

決策樹

雖然在大數據時代傳統的智慧型數據分析法已經不能適應當前的需求, 但是依然有一定的相似性, 相關理論和技術依然可以沿用, 幾種常見數據分析法: 第一種方法是決策樹。這種數據分析方法需要基於資訊理論基礎上, 這種方法實現的輸出結果容易理解,精確度較高, 效率也較快, 但是它不能用來對複雜的數據進行處理與分析。
決策樹(Decision Tree)是在已知各種情況發生機率的基礎上, 通過構成決策樹來求取淨現值的期望值大於等於零的機率,評價項目風險, 判斷其可行性的決策分析方法,是直觀運用機率分析的一種圖解法,它是建立在資訊理論基礎之上對數據進行分類的一種方法。首先通過一批已知的訓練數據建立一棵決策樹, 然後採用建好的決策樹對數據進行預測。決策樹的建立過程是數據規則的生成過程,因此,這種方法實現了數據規則的可視化, 其輸出結果容易理解, 精確度較好, 效率較高, 缺點是難於處理關係複雜的數據。常用的方法有分類及回歸樹法、雙方自動互動探測法等。其中分類樹主要用於數據記錄的標記和歸類,回歸樹主要用於估計目標變數的數值。

關聯規則

第二種方法是關聯規則。這種方法主要是用於事物資料庫中,通常帶有大量的數據,當今使用這種方法來削減搜尋空間。
關聯規則分析發現大量數據中項集之間有價值的關聯或相關聯繫, 就是要建立形如X → Y 的蘊涵式, 其中X 和Y 分別稱為關聯規則的先導(antecedent) 和後繼(consequent)。關聯規則一般套用在事物資料庫中, 其中每個事物都由一個記錄集合組成。這種事物資料庫通常都包括極為龐大的數據,因此,當前的關聯規則發現技巧正努力根據基於一定考慮的記錄支持度來削減搜尋空間。關聯規則的常見算法有Apriori算法、基於劃分的算法、FP-樹頻集算法等。

粗糙集

第三種方法是粗糙集。夠更好的支持大數據這種數據分析方法能夠對數據進行主觀評價, 只要通過觀測數據, 就可以清除冗餘的信息。
粗糙集智慧型數據分析是粗糙集理論中的主要套用技術之一, 是一種基於規則的數據分析的方法。其思想主要來自統計學和機器學習, 但並不是這兩種工具隨意的套用,它以粗糙集理論為基礎,以數據表所表示的信息系統為載體, 通過分析給定數據集的性質、粗糙分類、決策規則的確定性以及覆蓋度因子等過程,從中獲取隱含的、潛在有用的知識。
用粗糙集理論進行數據分析主要有以下優勢: 它無需提供對知識或數據的主觀評價, 僅根據觀測數據就能達到刪除冗餘信息;非常適合併行計算、提供結果的直接解釋。

模糊數學分析

第四種方法是模糊數學分析。這種數據分析方法能夠對實際問題進行模糊的分析, 與其他的分析方法相比, 能夠取得更為客觀的效果。
用模糊(Fuzzy sets)數學理論來進行智慧型數據分析。現實世界中客觀事物之間通常具有某種不確定性。越複雜的系統其精確性越低,也就意味著模糊性越強。在數據分析過程中, 利用模糊集方法對實際問題進行模糊評判、模糊決策、模糊預測、模糊模式識別和模糊聚類分析, 這樣能夠取得更好更客觀的效果。
模糊分析方法不足主要表現在: 用戶驅動, 用戶參與過多; 處理變數單一,不能處理定性變數和複雜數據, 如非線性數據和多媒體數據; 發現的事實或規則是以查詢為主要目的,對預測和決策影響不大,而且過分依賴主觀的經驗。

人工神經網路

第五種方法是人工神經網路。這種數據分析方法具有自學習功能, 在此基礎上還具有聯想存儲的功能。
人工神經網路是一種套用類似於大腦神經突觸聯接的結構進行信息處理的數學模型。該模型由大量的節點(或稱神經元)之間相互聯接構成。每個節點代表一種特定的輸出函式,稱為激勵函式(activationfunction)。每兩個節點間的連線都代表一個對於通過該連線信號的加權值, 稱之為權重,這相當於人工神經網路的記憶。網路的輸出則依網路的連線方式, 權重值和激勵函式的不同而不同。而網路自身通常都是對自然界某種算法或者函式的逼近, 也可能是對一種邏輯策略的表達。
典型的神經網路模型主要分三大類,即前饋式神經網路模型, 反饋式神經網路模型,自組織映射方法模型。人工神經網路具有非線性、非局限性、非常定性、非凸性等特點, 它的優點有三個方面: 第一,具有自學習功能。第二, 具有聯想存儲功能。第三,具有高速尋找最佳化解的能力。

混沌分型理論

第六種方法是混沌和分形理論。這兩種理論主要是用來對自然社會中存在的現象進行解釋, 一般用來進行智慧型認知研究, 還能套用於自動控制等眾多領域中。
混沌(Chaos)和分形(Fractal)理論是非線性科學中的兩個重要概念, 研究非線性系統內部的確定性與隨機性之間的關係。混沌描述的是非線性動力系統具有的一種不穩定且軌跡局限於有限區域但永不重複的運動, 分形解釋的是那些表面看上去雜亂無章、變幻莫測而實質上潛在有某種內在規律性的對象,因此,二者可以用來解釋自然界以及社會科學中存在的許多普遍現象。其理論方法可以作為智慧型認知研究、圖形圖像處理、自動控制以及經濟管理等諸多領域套用的基礎。

自然計算分析

第七種方法是自然計算分析方法。這種數據分析方法根據不同生物層面的模擬與仿真, 通常可以分為以下三種不同類型的分析方法: 一是群體智慧型算法, 二是免疫算術方法, 三是DNA算法。群體智慧型主要是對集體行為進行研究,免疫算法具有多樣性, 經典的主要有反向、克隆選擇等,DNA 算法主要使屬於隨機化搜尋方法, 它可以進行全局尋優,在實際的運用中一般都能獲取最佳化的搜尋空間,在此基礎上還能自動調整搜尋方向,在整個過程中都不需要確定的規則,當前DNA算法普遍套用於多種行業中, 並取得了不錯的成效。
自然計算分析方法自然計算是指受自然界中生物體的啟發,模擬或仿真實現發生在自然界中、易作為計算過程解釋的動態過程。針對不同生層面的模擬與仿真,有群體智慧型算法、免疫算法、D N A 算法等。
群體智慧型(Swarm Intelligence,SI)是一種模仿自然界動物昆蟲覓食築巢行為的新興演化計算技術, 研究的是由若干簡單個體組成的分散系統的集體行為, 每個個體與其他個體以及環境都有相互作用。目前主要的SI算法有粒子群最佳化算法(ParticleSwarm Optimization,PSO),蟻群算法(AntColony Optimization,ACO),文化算法(Culture Algorithm),人工魚群算法(Artificial Fish Swarm Optimization,AFSO)以及覓食算法(Foraging Algorithm),其中PSO和ACO受到了人們廣泛的關注。人工免疫系統(Artificial ImmuneSystem,AIS)是從脊椎動物免疫系統中獲取靈感構建的計算系統。人工免疫(亦稱計算機免疫)學借鑑生物免疫的思想,以典型的多樣性、適應性、自治性、動態覆蓋性、動態平衡性等特性, 求解某些特定複雜問題具有較好的效果。
經典免疫算法有反向選擇、克隆選擇、免疫網路、危險理論等。
遺傳算法(Genetic Algorithm)是一類借鑑生物界的進化規律(適者生存,優勝劣汰遺傳機制)演化而來的隨機化搜尋方法。它是由美國的J.Holland教授1975年首先提出, 其主要特點是直接對結構對象進行操作,不存在求導和函式連續性的限定;具有內在的隱並行性和更好的全局尋優能力;採用機率化的尋優方法, 能自動獲取和指導最佳化的搜尋空間,自適應地調整搜尋方向,不需要確定的規則。遺傳算法的這些性質,已被人們廣泛地套用於組合最佳化、機器學習、信號處理、自適應控制和人工生命等領域。

大數據下的IDA

大數據由於其獨特的特性決定了對其進行智慧型分析的技術必須有新的發展的進步, 才能勝任在如此龐大的數據中進行智慧型分析。有學者指出大數據的智慧型分析技術有望成為人工智慧的解決之道, 目前有很多企業和科研人員提出了很多新的智慧型分析技術方案。如惠普推出基於HAVEn大數據分析平台、Teradata天睿公司推出的Teradata Aster大數據探索平台(TeradataAster Discovery Platform)以及IBM公司和Intel公司都推出了他們各自的大數據分析方案。這些方案都涉及Hadoop這個大數據分析平台。
Hadoop 分散式系統架構圖Hadoop 分散式系統架構圖
Hadoop是Appach基金會支持的一個開源系統, 包括兩部分, 一是分布檔案系統、二是分布計算系統。Hadoop在HBase上還提供了一個數據倉庫/數據挖掘軟體Hivi。面向機器學習,還提供了一個機器學習軟體包Mahout,從而滿足大數據管理和分析的要求。
一方面, 大數據分析相比傳統的數據分析,具有數據量大、查詢分析複雜等特點, 因而需要有新的大數據分析方法和理論的出現。一方面人們發現現有的單一智慧型數據分析方法已經不能全面、高效地勝任數據分析的工作,由此一種趨勢是交叉融合多種智慧型數據分析技術的方法和技術應運而生。如模糊數學和其他理論融合形成了模糊人工神經網路、模糊遺傳算法、模糊進化算法、模糊計算學習理論;演化計算和其他理論融合滲透形成了模糊演化算法、演化人工神經網路等。另一方面大數據的智慧型分析技術的發展還有賴於新型的數據存儲和組織技術以及新的高效率的計算方法的支持。數據存儲和組織技術應該採用的更好的分散式的數據存儲策略, 並儘量提高數據的吞吐效率、降低故障率。如谷歌公司的GFS和Hadoop項目的HDFS是兩個最知名的分散式檔案系統, 他們都採用比較新穎的策略。高效率的計算方法有分散式運算、數據流技術、新硬體技術等。

相關詞條

熱門詞條

聯絡我們