實體辨識即從同一數據源或者從不同數據源中找出所有代表同一實體的記錄或者標識的過程。其目的是識別出數據集中描述同一真實世界實體的元組。
基本介紹
- 中文名:實體辨識
- 外文名:Entity recognition
- 套用:人口普查、引文識別、Web搜尋等
- 處理過程:實體匹配和實體合併
- 技術:索引技術、分類技術
- 背景:大數據時代
基本概念,處理過程,實體匹配,實體合併,技術,索引技術,分類技術,套用,數據質量管理,基於實體的數據管理,基於實體的電子商務信息搜尋,基於實體的醫療保健,不足,
基本概念
現實世界中存在著許多實體,同時數字世界中也對應存在著代表該實體的記錄、標識等。這些記錄和標識可能採用許多不同的形式,但是它們都指向現實世界中的同一個實體。在現實世界中,人是真實存在的,但是在數字世界中,同一個人有多種多樣的表示方式,這些表示方式可能包括這個人的身份信息、收入信息、住房信息等。我們有時需要知道哪些表示方式描述的是同一個人,進而從所有的表示方式中完整的刻畫這個人,得到這個人所有的相關信息。因此,實體辨識即從同一數據源或者從不同數據源中找出所有代表同一實體的記錄或者標識的過程。
處理過程
實體辨識的處理過程可以分為兩個階段:實體匹配和實體合併。實體匹配從數據源中發現所有滿足閾值約束的相似記錄對。實體合併劃分實體匹配過程發現的相似記錄對,形成相似子圖集合,合併相似子圖記錄。實體匹配為實體合併提供數據,實體合併需要在實體匹配結果的基礎上進行,實體合併依賴於實體匹配。下圖展示了實體辨識的流程,包括實體匹配和實體合併。
實體匹配
目前對於實體匹配的方法可大致分為兩個體系:一是基於記錄對(pairwise)的方法,該方法對記錄進行兩兩匹配,然後根據記錄對的相似性度量值決定兩記錄之間是否相似;二是基於聚類的方法,該方法通過定義衡量記錄之間相似程度的距離度量來對記錄進行聚類,聚在同一類中的記錄認為是相似的。
實體合併
實體合併是把實體匹配過程匹配出的相似記錄合併為一條記錄的過程。實體合併有效消除了數據的冗餘,大大降低了計算數據量,提高了處理效率。
一般來說,待合併的記錄大多包含多個屬性,這些屬性的數據類型多種多樣,因此在合併的過程中,我們需要對具體的數據類型採取具體的處理方法。例如,對於字元串的合併,我們可以採用全保留的方式,即所有在原紀錄中出現的字元串都會出現在合併後的記錄中,很明顯這種方式會占用大量空間,並且可能給後續處理帶來麻煩,還有一種方式是選擇一個最具有代表性的字元串添加到合併後的記錄中。
實體合併過程中不同數據集記錄屬性模式的不一致也會導致一些問題。例如,在一個數據集中記錄包含的地址項利用一個屬性來表示,而在另一個數據集中記錄所包含的地址項分為國家、省、市三個屬性來表示,這樣在合併的過程中,就會出現模式不一致的問題,需要藉助模式識別與轉換來統一兩個數據集的模式。
實體合併過程還有一個需要注意的問題,即合併後的新記錄與原有記錄如何並存的問題。由於新紀錄包含了原有記錄的信息,並且比原有記錄更全面,因此許多研究者認為新記錄可以完全替代原有記錄。有的學者提出了一個處理方法即認為新生成的記錄可以代替原有記錄,這樣原來的記錄從數據集中去掉,用合併後的記錄代替,大大減少了後續參與處理的數據量。但是有一些研究者提出了不同的看法,由於合併後的記錄畢竟與原有的記錄存在不一致的地方,這就導致在某些記錄對相似度計算的過程中出現一些偏差,從而影響最終結果。目前大多數研究者認為符合I CAR原則即冪等率、交換率、結合率和傳遞率的數據可以利用合併後的記錄代替原有記錄。
技術
索引技術
由於實體辨識問題中,絕大部分的元組對是不匹配的,即元組對的比較結果是兩個元組指代不同的實體。由於元組的比較是一個耗時的操作,某些屬性上的比較函式與屬性值的長度呈平方比,因此實體辨識過程中元組對之間的比較是計算代價最高的。實體辨識中的索引技術即是通過過濾掉那些不可能指代同一實體的元組對來儘可能的減少需要比較的元組對個數。假設兩個需要進行元組匹配的數據集大小分別為m和n,則沒有索引技術的話,需要進行mn次元組比較。對於大的數據集,這樣的算法是不可行的。實體辨識中的一般索引方法是根據某種評定標準,或者將每個元組插入一個或多個塊(blocks)中,或者將資料庫排序使得相似的元組被放到一起。被用於分塊或排序的標準常常被稱為一個“塊鍵”或“排序鍵”。塊鍵或排序鍵的值是基於一個或者多個屬性上的值所生成的。
分類技術
實體辨識的目標是將數據集按照元組對是否指代相同實體將它們分為匹配元組對和不匹配元組對。實體辨識分類技術大致可以分為基於閾值的方法、基於機率的方法、基於有監督的分類方法、主動學習的方法、基於聚類的方法和集體的分類方法六種。
套用
實體辨識是識別出數據集中所有描述同一真實世界實體的元組對或元組集合。實體辨識在數據管理中扮演著重要的角色。下面將介紹實體辨識在不同領域中的套用,包括數據管理、電子商務信息搜尋和醫療保健等領域。除了這些套用以外,實體辨識也被套用於人口普查,犯罪監測和預防,垃圾郵件檢測,機器閱讀等領域。
數據質量管理
實體辨識結果在數據質量管理中有著廣泛的套用,例如數據去重,錯誤檢測,過時數據的發現。具體地,通過識別指代同一實體的數據,可以發現冗餘元組從而實現數據的去重;通過檢測冗餘元組在相同屬性上的值是否衝突,來發現數據中的錯誤和過時的數據。
基於實體的數據管理
由於數據衝突是劣質數據中的一個主要問題,對劣質數據的管理要求檢測指代同一真實世界實體的元組。儘管指代同一實體的冗餘元組比較容易被檢測,但很難根據冗餘元組中衝突的值來找到正確值。為了避免信息的丟失,這些數據需要在不修改和不刪除的情況下進行管理。為了方便對劣質數據的查詢,數據對象需要按照它們所指代的實體來管理。在這樣的數據管理系統中,實體辨識是一項基本的技術。
基於實體的電子商務信息搜尋
當前許多電子商務網站提供了檢索商品信息的接口。同一種商品在不同的網店常常擁有不同的描述信息,如價格、發貨地點、購買數等。為了方便用戶對各個網店中該商品的信息進行比較,有必要識別哪些數據是描述的同一商品,因此對商品的實體辨識成為了需要。
基於實體的醫療保健
在醫療信息集成系統中,由於拼寫錯誤,姓名更換,一個患者每次治療記錄的名字常有不同,而相同的名字也可能指代著不同的患者。為了了解患者的病史,幫助患者的治療,醫療保健系統需要將來自不同醫院的數據集成到一起。這種套用需要對患者數據進行實體辨識。在醫療系統中的實體辨識與傳統的實體辨識不同,因為醫療數據具有特別的屬性。
不足
1.當前的實體辨識存在重名和異名的問題。重名是指描述現實世界不同實體的數據對象的名字相同,而異名是指描述現實世界中相同實體的數據對象的名字不同。目前實體辨識的研究或是只解決了重名問題,即對名字相同的數據對象進行實體劃分或是只解決了異名問題,即識別出名字不同但描述相同實體的對象集合,而缺少對一般情況(即重名和異名同時存在的情況)的考慮。
2.傳統實體辨識方法往往是基於元組的相似性比較來獲得結果的。它們假設數據集滿足緊湊集性質,即指代同一實體的元組的相似度比指代不同實體的元組對的相似度更高。然而,在某些情況下,這樣的性質並不成立,則傳統的實體辨識方法不能有效地識別實體。
3.當前實體辨識方法中所採用的相似性度量並沒有考慮不同詞之間所具有的相關性以及某些描述實體重要特徵的詞對辨識實體的重要貢獻。基於當前的相似性度量方法,往往不能得到有效的實體辨識結果。
4.目前的數據質量評估只包括一致性,時效性,完整性和精確性。然而通過實體辨識的結果可以評估另一類數據質量問題,即指代同一真實世界中的實體的元組在各屬性上的值存在衝突的問題。我們將該問題稱為冗餘數據上的實體描述衝突問題。當前尚無任何評估實體描述衝突的方法提出。