數據相關性

數據相關性

數據(data)是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未經加工的的原始素材。數據可以是連續的值,比如聲音、圖像,稱為模擬數據。也可以是離散的,如符號、文字,稱為數字數據。數據相關性是指數據之間存在某種關係,如正相關,負相關。

基本介紹

  • 中文名:數據相關性
  • 外文名:data dependency
  • 學科:數據相關性
  • 定義:數據之間存在某種關係
  • 有關術語:數據
  • 領域:數據分析
定義,相關關係,時序分析,挑戰,

定義

數據相關性是指數據之間存在某種關係。大數據時代,數據相關分析因其具有可以快捷、高效地發現事物間內在關聯的優勢而受到廣泛關注,並有效地套用於推薦系統、商業分析、公共管理、醫療診斷等領域。數據相關性可以時序分析、空間分析等方法進行分析。數據相關性分析也面對著高維數據、多變數數據、大規模數據、增長性數據及其可計算方面等挑戰。

相關關係

概述
相關關係,是指2個或2個以上變數取值之間在某種意義下所存在的規律,其目的在於探尋數據集裡所隱藏的相關關係網。從統計學角度看,變數之間的關係大體可分兩種類型:函式關係和相關關係。一般情況下,數據很難滿足嚴格的函式關係,而相關關係要求寬鬆,所以被人們廣泛接受。需要進一步說明的是,研究變數之間的相關關係主要從兩個方向進行:一是相關分析,即通過引入一定的統計指標量化變數之間的相關程度;另一個是回歸分析。由於回歸分析不僅僅刻畫相關關係,更重要的是刻畫因果關係。
各種相關係數
對於不同測量尺度的變數,有不同的相關係數可用:
Pearson相關係數(Pearson's r):衡量兩個等距尺度或等比尺度變數之相關性。是最常見的,也是學習統計學時第一個接觸的相關係數。
淨相關(partial correlation):在模型中有多個自變數(或解釋變數)時,去除掉其他自變數的影響,只衡量特定一個自變數與因變數之間的相關性。自變數和因變數皆為連續變數。
相關比(correlation ratio):衡量兩個連續變數之相關性。
Gamma相關係數:衡量兩個次序尺度變數之相關性。
Spearman等級相關係數:衡量兩個次序尺度變數之相關性。
Kendall等級相關係數(Kendall tau rank correlation coefficient):衡量兩個人為次序尺度變數(原始資料為等距尺度)之相關性。
Kendall和諧係數:衡量兩個次序尺度變數之相關性。
Phi相關係數(Phi coefficient):衡量兩個真正名目尺度的二分變數之相關性。
列聯相關係數(contingency coefficient):衡量兩個真正名目尺度變數之相關性。
四分相關(tetrachoric correlation):衡量兩個人為名目尺度(原始資料為等距尺度)的二分變數之相關性。
Kappa一致性係數(K coefficient of agreement):衡量兩個名目尺度變數之相關性。
點二系列相關係數(point-biserial correlation):X變數是真正名目尺度二分變數。Y變數是連續變數。
二系列相關係數(biserial correlation):X變數是人為名目尺度二分變數。Y變數是連續變數。

時序分析

以分析時間序列的發展過程、方向和趨勢,預測將來時域可能達到的目標的方法。此方法運用機率統計中時間序列分析原理和技術,利用時序系統的數據相關性,建立相應的數學模型,描述系統的時序狀態,以預測未來。它的基本步驟是:(一)以有關的歷史資料的數據為依據,區別不規則變動、循環變動、季節變動等不同時間的動勢,特別是連續的長期動勢,並整理出統計圖。(二)從系統原則出發,綜合分析時間序列,反映曾經發生過的所有因果聯繫及影響,分析各種作用力的綜合作用。(三)運用數學模型求出時間序列以及將來時態的各項預測值,如移動平均法、季節係數法、指數平滑法。時序分析適用以數據量化的時序系統,主要是以機率統計分析隨時間變化的隨機系統。在新聞工作中,一個歷史階段的來稿數量的變動;版面內容的變動;訂閱份數的變動;讀者來信來訪的變動等等,都是隨時間變化的隨機系統。利用機率統計,整理過去的數據,分析其變化規律,特別是掌握連續的長期動勢,可以預測新聞現象隨時間變化的未來的狀態。

挑戰

高維數據的相關分析
在探索隨機向量間相關性度量的研究中,隨機向量的高維特徵導致巨大的矩陣計算量,這也成為高維數據相關分析中的關鍵困難問題。面臨高維特徵空間的相關分析時,數據可能呈現塊分布現象,如醫療數據倉庫、電子商務推薦系統.探測高維特徵空間中是否存在數據的塊分布現象,並發現各數據塊對應的特徵子空間,本質上來看,這是基於相關關係度量的特徵子空間發現問題。結合子空間聚類技術,發現相關特徵子空間,並以此為基礎,探索新的分塊矩陣計算方法,有望為高維數據相關分析與處理提供有效的求解途徑。然而,面臨的挑戰在於:① 如果數據維度很高、數據表示非常稀疏,如何保證相關關係度量的有效性?②分塊矩陣的計算可以有效提升計算效率,但是,如何對分塊矩陣的計算結果進行融合?
多變數數據的相關分析
在現實的大數據相關分析中,往往面臨多變數情況。顯然,發展多變數非線性相關關係的度量方法是我們面臨的一個重要的挑戰。
大規模數據的相關分析
大數據時代,相關分析面向的是數據集的整體,因此,試圖高效地開展相關分析與處理仍然非常困難。為了快速計算大數據相關性,需要探索數據集整體的拆分與融合策略。顯然,在這種“分而治之”的策略中,如何有效保持整體的相關性,則是大規模數據相關分析中必須解決的關鍵問題。有關學者給出了一種可行的拆分與融合策略,也指出隨機拆分策略是可能的解決路徑。當然,在設計拆分與融合策略時,如何確定樣本子集規模、如何保持子集之間的信息傳遞、如何設計各子集結果的融合原理等都是具有挑戰性的問題。
增長性數據的相關分析
大數據中,數據呈現快速增長特徵。更為重要的是,諸如電商精準推薦等典型增長性數據相關分析任務,迫切需要高效的線上相關分析技術。就增長性數據而言,可表現為樣本規模的增長、維數規模的增長以及數據取值的動態更新。顯然,對增長性數據相關分析而言,特別是對線上相關分析任務而言,每次對數據整體進行重新計算對於用戶而言是難以接受的,更難以滿足用戶的實時性需求。我們認為,無論何種類型的數據增長,往往與原始數據集存在某種的關聯模式,利用已有的關聯模式設計具有遞推關係的批增量算法是一種行之有效的計算策略。那么,面向大數據的相關分析任務,探測增長性數據與原始數據集的關聯模式,進而發展具有遞推關係的高效批增量算法,可為增長性數據相關分析尤其是線上相關分析提供有效的技術手段。

相關詞條

熱門詞條

聯絡我們