關聯開放數據項目組織(LOD)發布的數據云圖可以發現網路上發布的關聯數據集在飛速發展(如圖)。關聯開放數據云是一個全球分布的數據網路,實際上,它可以看作一個跨越整個網路的資料庫。關聯數據云是從2007年約4000萬個三元組表示的12個數據集擴展到截至2014年8月的570個數據集(其中政府領域有136個數據集,大多集中在歐美已開發國家),這些數據集之間通過2909個RDF連結在數據層面上相互聯繫在一起。關聯數據云圖中的節點表示發布的數據集,節點的面積越大表示數據集中包含的三元組個數越多。數據云圖中的節點間的弧表示兩個數據集之間存在至少50個RDF連結,弧線越粗表示數據集間的連結越多,雙向弧表示兩個數據集相互使用標識符。
漢語翻譯是關聯數據。
關聯數據主張數據就像目前網路上文檔共享的方式那樣共享數據,可以使用戶在基於關聯數據規則的數據網路上創建混搭套用。關聯數據的一個主要優勢就是分散式,允許用戶發布自己擁有的數據,並被其他用戶發現和重用。網路用戶代理如瀏覽器、搜尋引擎可以識別這種組合的,為用戶提供可點擊的連結,或者直接跳轉到所需的文檔。正是這種有標準語法的連結方法使得網路上的文檔相互關聯。關聯數據的本質就是模組化的,不需要協調和計畫通過RDF連結把不同的數據集聯繫起來,使得擴展已發布的關聯數據是比較容易地,即使數據的定義和結構可能隨時間而變化。
基本介紹
- 中文名:Linked Data
- 時間:2007 年 5 月
- 所屬:Chris Bizer and Richard
- 目的:構建一張語義數據網路
- LOD數據云圖:關聯數據云圖
前言,定義,套用,
前言
Linked data 最早是在 2007 年 5 月,由 Chris Bizer and Richard Cyganiak 向 W3C SWEO 提交的一個項目申請 Linked Open Data Project 中提出來的。Linked data 提出的目的是構建一張計算機能理解的語義數據網路,而不僅僅是人能讀懂的文檔網路,以便於在此之上構建更智慧型的套用。Linked Open Data Project 的宗旨在於號召人們將現有數據發布成 Linked data,並將不同數據源互聯起來。在過去的三年中,越來越多的數據提供者和 Web 套用開發者將他們各自的數據發布到 Web 上,並且與其它數據源關聯在一起,形成一個巨大的數據 Web。截止 2009 年 7 月,已發布的 Linked data 規模為 6.726.000.000 個 RDF 三元組以及 148.948.000 個 RDF 關聯關係,相比 2007 年 5 月的 500 million RDF 三元組以及 120,000 RDF 關聯關係,增漲非常迅速。其數據領域涉及 Geographic Data,Life Sciences,Publications,User Generate Content,Media 等等。 不僅僅是 Public Web,隨著企業 2.0 的到來,企業內部也迫切需要越來越多的數據與 Web 上的數據關聯,從而構建更好的套用與服務。而現有的數據,尤其是企業內部的數據,大多數存在於關係型資料庫中,因此,本文挑選了一個目前套用較為廣泛的工具 D2R,介紹如何使用它將關係型資料庫的數據發布成 Linked Data。
定義
簡單來講,Linked data 即為一系列利用 Web 在不同數據源之間創建語義關聯的最佳實踐方法。這裡的不同數據源,可以來自一個組織內部的不同系統,也可以來自不同組織的不同系統,它們的內容,存儲地點以及存儲方式都可以完全不同,但它們很可能存在著關聯,例如:Amazon 上圖書可能與 MySpace 上的人之間可能存在關聯,因為圖書的作者有可能在 Myspace 上註冊賬號。總之,Linked data 最大的特點便是將不同的數據關聯起來。
Linked data 包含一些基本原則:
資源。在發布一個領域的數據之前,我們需要確定要發布的資源是什麼。任何事物,只要你認為是有意義的,有被引用必要的,都可以稱之為資源。
資源標識。任何一個資源都用一個 HTTP URI(Uniform Resource Identifiers)來標識。之所有要用 HTTP URI 來標識,是希望數據能夠通過 HTTP 協定訪問,真正實現基於 Web 的訪問與互聯。
資源描述。資源可以有多種描述,例如 HTML,XML,RDF 以及 JPEG文檔。 Web 的文檔主要通過 HTML 格式來表示,數據 Web 的數據主要通過 RDF格式(Resource Description Framework)來表示。RDF 將一個資源描述成一組三元組(主語,謂語,賓語)。
例如:
王老師 教授 英語課
(主語) (謂語) (賓語)
主語用來表示需要描述的資源,謂語用來表示主語的某個屬性(例如:姓名,出生日期)或者某個關係(例如,僱傭,認識,教授等),賓語表示了屬性的值或者關係的值。主語,謂語都需要要用 HTTP URI 來表示。賓語可以用 HTTP URI 標識另一個資源,也可以是字元串表示的文本。我們可以把主語看作是類資源,而將謂語看作是類資源的屬性資源,賓語或者是類資源或者是文字型資源。根據賓語的種類,可以將三元組分為兩類:文字型三元組以及非文字型三元組,第二種可以看作是類資源之間的關聯。
不管是HTML還是RDF,以下的關聯數據四原則使得Web蓬勃發展:
1、把URI當作東西的名字使用
使用 URI 作為資源的標識,即網路上的任何事物或資源的標識 名稱,如 HTML 文檔、科研人員、國家等,都使用 URI 進行標識和定位,用於幫 助用戶更直接的獲取資源。
2、為了讓人們可以查找這些名字,使用HTTP URI。
使用 HTTP URI 來標識資源,在網路環境下,數據 資源能夠通過 HTTP 協定訪問獲取,真正實現基於 Web 的訪問和互聯
3、當某個人查找某個URI的時候,以規範的標準(RDF, SPARQL),提供他有用的資料。
當某個人查詢一個 URI 時,使用 RDF 提供與當前資源相關的其他有用信息,為用戶提供更 多有價值的關聯資源。
4、在提供他的資料里,給他指到別的URI的連結,使他可以發現更多東西。
與更多相關資源的 HTTP URI 建立語義連結,提高用戶 發現、獲取和使用網路中潛在的相關信息資源的能力。
套用
1、政府部門
在 2013 年美國環保署以 Callimachus 為主機,把擁有的數據發布為關聯數據。 這些數據包括美國環保署所管理的 130 萬設施的數據信息,內容涵蓋了乾洗設備 到核電廠的設備的所有信息以及過去 25 年有毒化學物質排放報告。這些數據信息 通過連結與化學物質資料庫、OpenStreetMaps、 DBpedia 等網路資料庫的相關內 容關聯起來。
2、醫療健康
Sentara 是美國一個區域性的醫療機構,它通過使用 Callimachus 開發了“天氣 和健康”的 web 與手機應用程式。這個應用程式聚合了來自美國國家醫學圖書館、 國家海洋和大氣局(NOAA),美國環境保護署和 DBpedia 的相關數據,通過為患者提 供有效的實時相關信息,更好地應對慢性病提高醫療效果,進而減少衛生保健不 必要的浪費