數據處理法則

簡介

信息革命將人類帶入一個革命性的“大數據時代”，人們通過電腦網路，利用數據分析、數據集成、數據設計、數據模型、數據決策和數據虛擬化等手段，針對具體的認知對象，對反映其數量、性質、結構、功能、價值、前景等方面的數據，進行全面的收集、整理、分析、綜觀和萃取，然後作為決策和實踐的根據。由此，使人類的認識變得更精確係統、更全面廣泛、更快速有效。然而面對各種數據源收集來的海量數據，究竟如何對其進行歸類、計算、建模和解釋，卻需要高超的智慧。因數據本身始終沉默，需要依賴能動的認識主體的賦予。也應該制定一些數據處理應遵循的法則。

簡約法則

這是牛頓創設的一條“極簡主義”的簡約法則。在牛頓看來，神奇的自然界在創設過程中選擇的簡單性和對繁瑣的討厭，使得人類也形成如下觀念：“在用很少的東西就能夠解決問題的情況下，決不勞力費神和興師動眾”，要始終體現大自然所遵循的簡約性、精準性、合理性與有效性。欲達此目的，就需要在雲計算或大數據處理中，遵循簡約法則，選擇有用數據，淘汰無用數據。識別有代表性的本質數據，去除細枝末節或無意義的非本質數據。要能夠確識數據之間的巨大差距或差異;要能夠鑑別和挑出那些“以一當十”的數據和信息。

這種簡約法則在大數據的收集、挖掘、算法和實施中的最有效途徑，就是對“數據規約”的運用。所謂數據規約就是簡化現有的數據集，使得一種小規模的數據就能夠產生同樣的分析效果。常用的數據規約策略有數據立方體聚集、維規約、數據壓縮、數值壓縮、離散化和概念分層等，而常用的數據規約方法則主要包含粗糙集、遺傳算法、主成分分析、逐步回歸分析、公共因素模型分析等。運用這些規約方法，就可以獲取可靠數據，減少數據集規模，提高數據抽象程度，提升數據挖掘效率，使之在實際工作中，可以根據需要選用具體的分析數據和合適的處理方法，以達到操作上的簡單、簡潔、簡約和高效。具體地說，當一位認知主體面對收集到的大量數據和一些非結構化的數據對象，如文檔、圖片、飾品等物件時，不僅需要掌握大數據管理、大數據集成的技術和方法，遵循“簡約原則”和“數據集成原則”，學會數據的歸檔、分析、建模和元數據管理，還需要在大量數據激增的過程中，學會規約、選擇、評估和發現某些潛在的本質性變化，包括對新課題、新項目的興趣和開發。

綜觀法則

所謂綜觀，就是對認知對象進行綜合性的觀察、分析和探索;就是從總體上對認識對象、認識過程和認識結果進行抽象、概括或直覺，並通過具體的信息數據超越那涵蓋於總體性中的局部或個別。這種綜觀法則既針對構成事物之個體的全部，也針對構成事物的諸要素組成的統一體，以及總體上顯現的本質和規律。綜觀法則較整體觀察更加辯證。它堅持從大處著眼，從總體上去“觀其狀，求其法，探其道”，以求得解決問題的策略和戰略。它堅持整體的具體統一性，凸顯認知對象的具體實在性。

至於現實中，人們究竟如何對具體的認知對象進行綜觀，這裡需要藉助與綜觀緊密相關的大數據集合的理論與實踐。因為大數據集成，既包括對存貯在結構化數據結構中的數據進行移動和集成，也包括對一大部分非結構化數據中的數據進行移動、調節和集成。比如面對複雜的信息和數據，人們就可以將“雲架構、實時數據集成、數據虛擬化、數據集成建模”等先進技術用到具體問題的解決中，使用一種根據大數據製作的“可預測模型描述語言”(pmml)，為其提供一種快速簡便的程式和模型。此時，通過使用標準的xml(可擴展標記語言)解析器對pmml進行解析，應用程式就能夠決定模型輸入和輸出的數據類型，及模型的詳細格式，並會按照標準的數據挖掘術語來解釋模型的結果。通過對大數據的綜觀、模型化和虛擬化，可以做到花最小氣力，獲最大效益。

數據處理法則

基本介紹

簡介

簡約法則

綜觀法則

解釋法則

智慧法則

相關詞條

熱門詞條