Linked data 最早是在 2007 年 5 月,由 Chris Bizer and Richard Cyganiak 向 W3C SWEO 提交的一個項目申請 Linked Open Data Project 中提出來的。Linked data 提出的目的是構建一張計算機能理解的語義數據網路,而不僅僅是人能讀懂的文檔網路,以便於在此之上構建更智慧型的套用。Linked Open Data Project 的宗旨在於號召人們將現有數據發布成 Linked data,並將不同數據源互聯起來。在過去的三年中,越來越多的數據提供者和 Web 套用開發者將他們各自的數據發布到 Web 上,並且與其它數據源關聯在一起,形成一個巨大的數據 Web。截止 2009 年 7 月,已發布的 Linked data 規模為 6.726.000.000 個 RDF 三元組以及 148.948.000 個 RDF 關聯關係,相比 2007 年 5 月的 500 million RDF 三元組以及 120,000 RDF 關聯關係,增漲非常迅速。其數據領域涉及 Geographic Data,Life Sciences,Publications,User Generate Content,Media 等等。 不僅僅是 Public Web,隨著企業 2.0 的到來,企業內部也迫切需要越來越多的數據與 Web 上的數據關聯,從而構建更好的套用與服務。而現有的數據,尤其是企業內部的數據,大多數存在於關係型資料庫中,因此,本文挑選了一個目前套用較為廣泛的工具 D2R,介紹如何使用它將關係型資料庫的數據發布成 Linked Data。
定義
簡單來講,Linked data 即為一系列利用 Web 在不同數據源之間創建語義關聯的最佳實踐方法。這裡的不同數據源,可以來自一個組織內部的不同系統,也可以來自不同組織的不同系統,它們的內容,存儲地點以及存儲方式都可以完全不同,但它們很可能存在著關聯,例如:Amazon 上圖書可能與 MySpace 上的人之間可能存在關聯,因為圖書的作者有可能在 Myspace 上註冊賬號。總之,Linked data 最大的特點便是將不同的數據關聯起來。
資源標識。任何一個資源都用一個 HTTP URI(Uniform Resource Identifiers)來標識。之所有要用 HTTP URI 來標識,是希望數據能夠通過 HTTP 協定訪問,真正實現基於 Web 的訪問與互聯。
資源描述。資源可以有多種描述,例如 HTML,XML,RDF 以及 JPEG文檔。 Web 的文檔主要通過 HTML 格式來表示,數據 Web 的數據主要通過 RDF格式(Resource Description Framework)來表示。RDF 將一個資源描述成一組三元組(主語,謂語,賓語)。
例如:
王老師 教授 英語課
(主語) (謂語) (賓語)
主語用來表示需要描述的資源,謂語用來表示主語的某個屬性(例如:姓名,出生日期)或者某個關係(例如,僱傭,認識,教授等),賓語表示了屬性的值或者關係的值。主語,謂語都需要要用 HTTP URI 來表示。賓語可以用 HTTP URI 標識另一個資源,也可以是字元串表示的文本。我們可以把主語看作是類資源,而將謂語看作是類資源的屬性資源,賓語或者是類資源或者是文字型資源。根據賓語的種類,可以將三元組分為兩類:文字型三元組以及非文字型三元組,第二種可以看作是類資源之間的關聯。
不管是HTML還是RDF,以下的關聯數據四原則使得Web蓬勃發展:
1、把URI當作東西的名字使用
使用 URI 作為資源的標識,即網路上的任何事物或資源的標識 名稱,如 HTML 文檔、科研人員、國家等,都使用 URI 進行標識和定位,用於幫 助用戶更直接的獲取資源。
2、為了讓人們可以查找這些名字,使用HTTP URI。
使用 HTTP URI 來標識資源,在網路環境下,數據 資源能夠通過 HTTP 協定訪問獲取,真正實現基於 Web 的訪問和互聯
3、當某個人查找某個URI的時候,以規範的標準(RDF, SPARQL),提供他有用的資料。
當某個人查詢一個 URI 時,使用 RDF 提供與當前資源相關的其他有用信息,為用戶提供更 多有價值的關聯資源。
4、在提供他的資料里,給他指到別的URI的連結,使他可以發現更多東西。
與更多相關資源的 HTTP URI 建立語義連結,提高用戶 發現、獲取和使用網路中潛在的相關信息資源的能力。