計算機輔助信息分析工作框架,計算機輔助信息分析框架內容,計算機輔助信息分析工作流程,計算機輔助信息分析的主要技術,數據倉庫(DW),在線上分析處理(OLAP),數據挖掘 (DM),發展趨勢,
計算機輔助信息分析工作框架 計算機輔助信息分析框架內容 計算機輔助信息分析系統由
資料庫 、信息分析方法、信息分析軟體和信息分析人員四大要素構成。其中,資料庫是基礎,資料庫系統中的數據資源是信息分析的對象;信息分析方法是手段,選擇先進、合理、有效的方法是信息分析取得實質性成果的重要條件;信息分析軟體是工具,在功能上保證信息分析目標和方法的實現;信息分析人員是主體,決定資料庫、方法和軟體的建設與選擇。
計算機輔助信息分析系統的四個要素是否相互適配,即要素之間的相互結合能否產生協同性,是計算機輔助信息分析系統的整體功能能否大於各個要素功能之和的關鍵所在。也就是說,對特定的信息分析課題,若數據資料完整準確,方法選擇得當,軟體工具具有與之相匹配的先進功能,信息分析人員能按照課題要求對這些要素進行有效的整合,並在此基礎上進行創新性的研究,則該計算機輔助分析系統就是一個高效能的系統。其中,信息分析人員對其他要素的有效運用、對課題的理解及其所表現出來的智慧在很大程度上決定著信息分析的質量。
計算機輔助信息分析工作流程 計算機輔助信息分析工作流程包括5個主要步驟,如右圖所示。
1、信息採集
信息採集是按照信息分析課題的需要,遵循一定的程式,採用科學的法,對真實、有價值的信息進行有組織、有計畫、有目的的採集的全過程,其目標是系統採集與課題相關的儘可能完整的信息資源。信息採集是信息分析的前提和基礎。信息採集有以下5個原則。
①真實性原則。指採集的信息必須反映真實的狀況,真實性原則是信息採集的基礎。
②完整性原則。信息採集必須按照一定的標準要求,採集反映事物全貌的信息,完整性原則是信息利用的基礎。
③及時性原則。信息採集的及時性是指能及時獲取所需的信息。及時性原則保證信息採集的時效。
④準確性原則。準確性原則是指採集到的信息與需求的關聯程度比較高,採集到的信息的表達準確無誤。準確性原則保證信息採集的價值。
⑤廣泛性原則。信息採集渠道應是多方面的,內外部信息、Web站點的信息、Internet資源、在線上資料庫、人際網路等。廣泛性原則保證信息採集的整體性。
2、信息有序化組織
對採集到的信息進行有序化的組織,包括兩個步驟:數據篩選和鑑別;數據的有序化組織。對所收集的原始數據,首先要進行篩選和鑑別,剔除虛假的、過時的、錯誤的信息,提高信息的準確性和有效性。一般來說,還需要建立相應的信息評價體系,根據所收集的信息的基本特徵或特點,分別置入評價體系進行價值評價,做適度的篩選以利於信息的針對性使用。在篩選與鑑別的基礎上,按照某種統一的數據格式,對多檔案或多資料庫環境中的數據進行合併處理,建立信息分析的專用
資料庫 。
3、分析方法與輔助分析軟體的選擇
信息分析方法從性質上看,有定性方法、定量方法、擬定量方法;從功能上看,有相關分析方法、預測方法、評估方法、綜合分析方法等。方法的選擇及其組合應保證信息分析各項目標的實現。輔助分析軟體作為一種工具,是為方法功能的實現和課題任務的完成服務的,一般來說,需要綜合運用多種分析軟體和工具。因此,在建立信息分析專用資料庫的情況下,除利用有關軟體完成基本的數據的統計、計算和分析之外,還可結合運用在線上分析處理軟體和數據挖掘工具,相互驗證分析結論和有關事實,從而提高信息分析的效率和質量。
4、信息分析
信息分析是整個計算機輔助信息分析流程中的關鍵步驟。在專用資料庫的支持下,利用所選擇的軟體工具和方法,展開具體的信息分析過程。信息分析要受到目標的支配,無論分析的目標是非常具體的,還是比較抽象的,都應該首先明確分析目標。必要時可建立起相應的假設,一部分假設由信息分析人員自己提出,一部分假設由信息分析工具產生或建立。經過統計、計算、比較分析,驗證或證明假設,得出分析結論。
5、結果表達和解釋
信息分析的最後需要按用戶要求提供信息分析結果,指出分析結果的適用範圍和邊界等。在決策支持系統中,要按決策者的要求來描述知識,如用挖掘出的知識建立
決策樹 或集成發現的規則到決策支持系統的知識庫中;同時要把已描述的知識輸入到知識庫中,成為知識庫的新的構成要素。
計算機輔助信息分析的主要技術 20世紀90年代以來,
數據倉庫 (DW)、
在線上分析處理 (OLAP)、
數據挖掘 (DM)等信息分析處理技術相繼問世,為信息分析提供了有效的體系化解決方案,顯著提升了信息分析的智慧型化程度。其中,數據倉庫主要用於數據的獲取、組織和存儲;在線上分析處理集中於數據的多維分析和查詢;數據挖掘致力於從大量模糊的、隨機的數據中提取具有潛在價值的知識。而在線上分析處理和數據挖掘既可以作為數據倉庫的工具層的組成部分,又可以獨立於數據倉庫。
數據倉庫(DW) 數據倉庫是適應數據的分析型處理而興起的一種新的數據存儲和組織技術,它在原有各類資料庫的基礎上,為了滿足高層分析和決策的需要,通過分離操作型處理和分析型處理,為人們建立一個單獨的分析處理環境。在技術上人們根據其工作過程可將數據倉庫的關鍵技術與內容分為數據抽取與集成、數據存儲與管理及數據分析與表現三個基本方面。
1、數據抽取與集成。數據抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從在線上事務處理系統(OLTP)、外部數據源、脫機的數據存儲介質中導入到數據倉庫。數據抽取在技術上主要涉及互聯、複製、增量、轉換、調度和監控等方面。經過數據抽取,將形式多樣、結構不一致的大量數據清洗、轉化、綜合後載入到數據倉庫中。
2、數據存儲和管理。數據倉庫組建和運行的關鍵是數據的存儲和管理。其組織管理方式決定了它有別於傳統資料庫對外部數據的表現形式。一般來說,數據倉庫的存儲可由大型含有並行組件的關係型資料庫系統來完成,也可以使用多維資料庫,進行大批量數據分析和複雜處理。
3、數據分析與表現。主要集中在多維分析、數理統計和數據挖掘方面。可利用 OLAP、DM及用戶查詢與報表工具。隨著網際網路技術的發展和普遍運用,使得多維分析和數據挖掘領域的工具和產品更加注重提供基於Web前端的在線上分析界面,拓展了DW的數據分析與表現形式。
在線上分析處理(OLAP) 在線上分析處理概念由關係資料庫之父E.F.Codd於1993年提出。當時,由於在線上事務處理系統(OLTP)已不能滿足終端用戶對資料庫進行查詢分析的需要,SQL語句對資料庫的簡單查詢也不能滿足用戶深入分析的需要,要解決用戶決策分析中對關係資料庫進行大量的、深層次的計算的問題,需要多維資料庫和多維分析技術的支持。在線上分析處理遂作為一種具有獨特效能的信息分析工具得到迅速發展。
在線上分析處理是針對特定問題的在線上數據訪問與分析,使分析人員能夠從多角度對信息進行快速、一致、互動地存取,從而獲得對數據的更深入了解。它的技術核心是 “維”這個概念。“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。“維”一般包含著層次關係,這種層次關係有時會相當複雜。通過把一個實體的多項重要的屬性定義為多個維(dimension),使用戶能對不同維上的數據進行比較。OLAP的基本多維分析操作有鑽取(roll up和drill down)、切片(slice)、切塊(dice)及旋轉(piovt)等。
根據綜合性數據的組織方式的不同,目前常見的OLAP主要有基於多維資料庫的 MOLAP及基於關係資料庫的 ROLAP兩種。MOLAP是以多維的方式組織和存儲數據,ROLAP則利用現有的關係資料庫技術來模擬多維數據。在數據倉庫套用中,OLAP套用一般是數據倉庫套用的前端工具,同時OLAP工具還可以同數據挖掘工具、統計分析工具配合使用,增強決策分析功能。
數據挖掘 (DM) DM是一種從大量的、模糊的和隨機的數據中提取、發現隱含於其中的潛在數據模式和有用信息的過程。DM涉及
數據統計 、
模糊理論 和
人工智慧 等多種技術,是進行預測性分析的有效工具。用戶使用DM工具不必提出確切的問題,只需DM工具通過關聯知識的挖掘去智慧型地定位潛在信息、預測未來的發展趨勢和探測未知模式。作為DW工具層的組成部分,OLAP和DM是相輔相成的:OLAP更多地依靠用戶輸入問題和假設,得出分析結論,DM則自動發現隱藏的數據模式,做出預測和發現未知的事實。因此,可以結合 OLAP和DM驗證分析結論,提高信息分析的質量。目前的一個發展趨勢是,OLAP和DM出現了相互融合的趨勢,以至出現了在線上數據挖掘 (OLDM:Online Data Mining)的新概念。
按照IBM的劃分,DM的主要分析方法有如下四類:
1、關聯分析。即利用關聯規則進行數據挖掘。目前人們提出了多種關聯規則的挖掘算法,如APRORI、STEM、AIS、DHP等算法。關聯分析的目的是挖掘隱藏在數據間的相互關係。
2、序列模式分析。序列模式分析的側重點在於分析數據間的前後序列關係。序列模式分析描述的問題是:在給定的交易序列資料庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函式作用在這個交易序列資料庫上,返回該資料庫中出現的高頻序列。
3、 分類分析 。設有一個資料庫和一組具有不同特徵的類別(標記),該資料庫中的每一個記錄都被賦予一個類別的標記,這樣的資料庫稱為示例資料庫或訓練集。分類分析就是通過分析示例資料庫中的數據,為每個類別做出準確的描述,或建立分析模型,或挖掘出分類規則,然後用這個分類規則對其他資料庫中的記錄進行分類。目前已有多種分類分析模型得到套用,其中典型的有
線性回歸模型 、
決策樹模型 、基本規則模型和神經網路模型。
4、聚類分析。即根據一定的規則 (聚類算法)合理地劃分記錄集合,確定每個記錄所在的類別。它所採用的分類規則是由聚類分析工具決定的。聚類分析的方法很多,包括系統聚類法、分解法、加入法、動態聚類法、模糊聚類法、運籌方法等。採用不同的聚類方法,對於相同的記錄集合可能有不同的劃分結果。聚類分析與分類分析是兩種互補的分析方法:一方面分類分析的分類標準可以通過聚類分析不斷得到補充;另一方面聚類分析可以直接採用分類算法進行。
發展趨勢 計算機輔助信息分析正日益成為信息分析的主流工作模式,顯著地提升了信息分析的職業水平,但信息分析界對計算機輔助信息分析理論和套用的研究比較薄弱,這顯然不符合計算機輔助信息分析進一步深化和拓展的需要,不符合信息分析在現代信息環境下進行理論更新和職業建構的需要。需要指出的是,計算機輔助信息分析從總的發展方向上來看,雖然越來越智慧型化,但計算機不可能完全取代人,無論其功能多么強大,最終只能是人的輔助工具。信息分析中人的地位是主導性的,理論框架的形成、對方法和模型的選擇,以及根據背景知識和經驗理解、解釋所得到的數據或結論,這些信息分析中創造性思維的工作部分最終只能由信息分析人員自己完成,這是由信息分析作為一種知識或智慧型勞動的特點所決定的。