知識可信度量

網路大數據中蘊含豐富的知識資源,包括描述特定事物的實體、刻畫實體邏輯聯繫的關係、用於語義標註實體的分類等。由於網路空間龐大且機構複雜,知識其自身會呈現出異質性、多元性和碎片化等特點。如何在網路大數據環境下對知識進行有效的融合計算,將從網路大數據中獲得的知識有效組織起來是知識庫構建亟待解決的技術難點和當前研究的熱點。知識可信度量,也可稱為知識評估,是指在知識融合中用於判斷知識真偽的知識評估方法。

基本介紹

  • 中文名:知識可信度量
  • 外文名:knowledge validation
1、 知識可信度量的必要性
網路大數據是指“人、機、物”三元世界在網路空間中互動、融合所產生並在網際網路上可獲得的大數據。這些數據具有多源異構、時效性、社會性、突發性和高噪聲等特點,其背後蘊含著豐富的知識資源。然而,從單一數據源獲取的知識並不全面、知識間缺乏深入的關聯,給知識的理解和套用帶來巨大的困難。因此,應當將網路數據中蘊含的知識進行有效的關聯,將其轉變成為種基礎知識資源來協同提供服務,從而有效利用網路大數據的價值。
知識融合是將從網路大數據公開的碎片化數據中獲取的多源異構、語義多樣、動態演化的知識,通過衝突檢測和一致性檢查,對知識進行正確性判斷,去粗取精,將驗證正確的知識通過對齊關聯、合併計算有機地組織成知識庫,提供全面的知識共享的重要方法。由此可知,知識融合建立在知識獲取的基礎上,知識獲取為知識融合提供知識來源。在知識融合中,如何通過知識可信度量刻畫知識的質量,消除知識理解的衝突和不一致性,發現反映真實世界的事實,即知識的真值,將正確的知識更新擴充到知識庫中是研究者們關注的重點。
2、 知識可信度量的方法
知識可信度量是知識融合的首要步驟,對驗證為正確的知識繼續進行融合計算才有意義。目前,知識可信度量的研究工作主要分為以下幾類:
(1) 基於貝葉斯估計的知識評估方法
考慮到不同數據來源的知識質量可能不一定相同,基於貝葉斯模型的方法提供了一種計算假設機率的方法,基於假設的先驗機率、給定假設下觀察到的不同知識的機率以及觀察到的知識本身而得出,計算簡單、直接。然而,貝葉斯方法需要滿足如下條件:不同來源的知識之間的觀測是互相獨立的,而且這些知識的先驗機率是可預知的,這在網路大數據環境中很難的到滿足,從而無法保證貝葉斯方法在具體套用中的實用性。
(2) 基於D-S證據理論的知識評估方法
基於D-S證據理論的方法主要根據數據源提供的知識和先驗信息,處理流程如下:首先,利用數據挖掘等手段,提取不同觀測結果的信任函式;其次,基於Dempster證據組合規則,對觀測結果的信任函式進行融合;然後,得到基礎機率分配,選擇具有最大支持度的假設作為最優的判斷,從而選擇認為正確的知識。
基於D-S證據理論的方法是對貝葉斯機率論方法的進一步擴展,它具有直接表示“不知道”和“不確定”的能力,只是滿足比貝葉斯機率論更弱的條件,能夠很好地建模不確定性的知識,解決知識衝突的問題,但該方法與貝葉斯方法類似,也要求參與評估的知識源之間是相互獨立的,其判別決策含有更多的主觀性,而且當知識源間高度衝突時,往往產生相悖的結論,同時,該方法的時間複雜度隨知識源數目的增加呈指數級增長。綜上,基於D-S證據理論的方法難以有效處理網路大數據中大規模知識的評估問題。
(3) 基於模糊集理論的知識評估方法
該方法採用分類的局部理論,在D-S證據理論方法的基礎上,進一步放寬了貝葉斯機率論方法的限制條件,採用基於模糊積分的方式找到置信度最高的知識作為正確知識。
基於模糊集理論的方法能夠同時處理不精確和不確定的信息、,有效實現開放網路知識的評估。然而,基於模糊集理論的知識評估方法需要憑經驗設定知識的模糊規則和隸屬函式,缺乏系統性,難以保證不同知識源類型的知識評估結果的穩定性和魯棒性。因此,基於模糊集理論的方法難以有效處理網路大數據中多源異構的知識的評估問題。
(4) 基於圖模型的知識評估方法
除上述傳統的知識評估方法以外,近幾年比較流行的知識評估方法是基於圖模型的方法。這種方法使用從其他類型的數據中獲得的先驗知識,如使用已有知識庫中的知識來擬合先驗模型,從而為知識分配一個機率,可被看作是圖上的鏈路預測問題,也就是說,我們觀察一組現有的邊(連線不同實體),預測其他邊存在的可能性,從而根據預測的邊指導數據源中獲取的知識的質量的評價。
代表性的工作,如Lao等人提出了一種基於路徑排序算法(Path Ranking Algorithm,PRA)的知識先驗計算方法,該方法通過利用已有的知識去預測這些知識之間的隱含信息。該方法將實體之間的關係抽象成一種路徑模型:首先,枚舉實體間所有的關係路徑;然後,將每條路徑作為訓練專家,在關係路徑圖上執行隨機遊走,計算每條路徑終點的機率值;最後,利用邏輯回歸對所有訓練專家排序。PRA通過利用已有的知識之間的關係預測它們之間可能產生的隱含的知識,從而與數據源中抽取的知識進行比對,識別不同來源知識中可能的真值。除此之外,Dong等人提出了一種基於神經網路模型的方法,該方法將上述鏈路預測問題轉化為矩陣填充問題(matrix completion)進行求解。Zhao等人提出了一種針對數據型數據真值發現的貝葉斯機率模型——高斯真值模型(Gaussian Truth Model,GTM),該模型具有有原則地使用數值數據的特點,而且不需要任何監督信息就可以推斷真值和數據源的質量。

相關詞條

熱門詞條

聯絡我們