支持共享共治的內容元數據標識及套用方法

支持共享共治的內容元數據標識及套用方法

《支持共享共治的內容元數據標識及套用方法》是東南大學於2016年8月30日申請的發明專利,該專利的申請號為2016107851808,公布號為CN106372180A,授權公布日為2017年2月1日,發明人是楊鵬、李幼平、尹浩、呂勇強。

《支持共享共治的內容元數據標識及套用方法》針對大數據和泛媒體環境下的內容大數據共享共治需求提出,適用於對各種品類的內容資源進行統一標識,與之配套的套用方法可有效支持內容大數據的高效共享和科學治理等。MDCCSG方法包括三個部分:內容元數據的統一描述框架、內容元數據的統一規約方法、核心MDCCSG標識要素定義等,該標識方法既能詳盡描述內容的豐富語義信息,又具有內嵌的(built‑in)內容可信認證與安全保障能力;基於MDCCSG標識可開發各種內容共享共治套用,能夠有效支持內容大數據的高效聚合與分發、個性化主動服務、語義深度分析、認證註冊管理、依法溯源追責等。

2019年7月15日,《支持共享共治的內容元數據標識及套用方法》獲第十一屆江蘇省專利項目獎優秀獎。

(概述圖為《支持共享共治的內容元數據標識及套用方法》摘要附圖)

基本介紹

  • 中文名: 支持共享共治的內容元數據標識及套用方法
  • 申請人:東南大學
  • 申請號:2016107851808
  • 公布號:CN106372180A
  • 發明人:楊鵬、李幼平、尹浩、呂勇強
  • 授權日:2017年2月1日
  • 申請日:2016年8月30日
  • 地址:江蘇省南京市玄武區四牌樓2號
  • Int.Cl.:G06F17/30(2006.01)
  • 代理機構:南京蘇高專利商標事務所(普通合夥)
  • 代理人:李玉平
  • 類別:發明專利
專利背景,發明內容,專利目的,技術方案,有益效果,附圖說明,技術領域,權利要求,實施方式,榮譽表彰,

專利背景

隨著網際網路技術與套用的飛速發展以及網路用戶的快速增長,以泛媒體化和海量化等為特徵的內容分發與共享,正成為網際網路套用發展的主旋律,網路內容的大數據化趨勢日益凸顯。發布渠道的便捷性與泛在性,促使網路中的內容大數據越來越呈現出複雜異構、良莠不齊和混亂失序等特徵,處理起來異常困難。如何應對泛媒體化和內容大數據化所帶來的嚴峻挑戰,世界各國都在積極探索有效的實現技術。在烏鎮召開的第二屆世界網際網路大會提出“互聯互通、共享共治”的發展理念,強調通過共享共治推進全球網際網路體系變革。網際網路共享共治的核心目標是網路內容大數據的共享共治。網際網路中的內容大數據,來源廣泛且更新頻繁,並具有非結構化(或半結構化)和高度異構等特點,因此共享共治內容大數據的關鍵在於內容元數據(Metadata)標識方法創新。
傳統網際網路主要採用統一資源定位符URL來標識網路中的資源,但它通常只能表示內容資源的位置,難以描述內容的豐富語義信息,由此帶來網際網路內容資源難找、難管、失序等弊端。其他的一些內容標識方法,如數字對象標識符DOI,以及信息中心網路研究領域所提出的內容標識方法,包括層次化內容標識方法(如TRIAD、CCN和NDN)、扁平化內容標識方法(如DONA、PSIRP和NetInf)和基於屬性的內容標識方法(如CBCB)等,總的來說對內容的語義和管理信息描述能力普遍較弱,難以滿足網路內容大數據的共享共治需求。另外,國際上2016年8月前影響較大的是都柏林核心元數據集(Dublin Core),它已經發展成一種與統一資源標識URI關聯的內容元數據標準,但都柏林核心元數據集的15個核心元數據,根源於圖書館的圖書資料描述方式,與內容大數據共享共治的要求相去甚遠。因此,亟需發明一種可在大數據和泛媒體環境下,支持網際網路內容大數據共享共治的創新型內容元數據標識方法,並提出與之配套的內容大數據高效共享和科學治理套用方法。

發明內容

專利目的

《支持共享共治的內容元數據標識及套用方法》提供一種支持共享共治的內容元數據標識及套用方法,該標識方法適用於對各種品類的內容資源進行統一標識,既能詳盡描述內容的豐富語義信息,又具有內嵌的(built-in)內容可信認證與安全保障能力,套用該標識方法可開發各種內容共享共治套用,支持內容大數據的高效聚合與分發、個性化主動服務、語義深度分析、認證註冊管理、依法溯源追責等,大幅提升內容共享共治的性能和水平。

技術方案

《支持共享共治的內容元數據標識及套用方法》與2016年8月前已有方法不同的是,該標識方法主要針對大數據和泛媒體環境下的內容大數據共享共治需求提出,能有效彌補各種已有內容元數據標識方法在內容豐富語義描述、內容高效分發與共享、內容可信認證與安全保障、網路內容大數據科學治理等方面所存在的不足。該標識方法藉助於一個統一的內容元數據描述框架和規約方法,把內容的提供者、內容的使用者和內容共享的管理者等緊密關聯起來,形成一套以內容為中心的內容元數據創新標識體系,該發明稱之為MDCCSG(Metadata for Cyber Content Sharing and Governance)方法。與之配套的套用方法可用於構建各種內容共享共治套用,實現內容大數據的高效共享和科學治理等。
《支持共享共治的內容元數據標識及套用方法》提出的支持共享共治的內容元數據標識方法主要包括三個部分,即:內容元數據的統一描述框架、內容元數據的統一規約方法、核心MDCCSG標識要素定義等。具體如下:
1)內容元數據的統一描述框架。MDCCSG方法充分考慮大數據和泛媒體環境下的內容大數據共享共治需求,採用一個統一的描述框架對內容元數據進行標識,該描述框架為每一份待標識的內容資源生成一個具有統一格式的內容元數據標識(稱為MDCCSG標識),它包括兩個部分:MDCCSG標識短碼和MDCCSG屬性信息。
其中,MDCCSG標識短碼位於整個MDCCSG標識的前部,它的標準長度為32位元組(Byte),由多個域(field)組成,這些域存放與內容有關的若干關鍵信息描述碼(稱為基礎短碼)。此外,MDCCSG標識短碼還可以帶有擴展部分,擴展部分是長度為16位元組整數倍(即16B×n,n=0,1,2,3,…)的擴展信息描述碼(稱為擴展短碼),用來存放基礎短碼之外的擴展域。基礎短碼和擴展短碼合稱為MDCCSG標識短碼。
MDCCSG屬性信息緊接在MDCCSG標識短碼之後,它包含多個元數據集合單元(Metadata Set Unit,MDSU),每個元數據集合單元包含多個元數據元素(Metadata Element,MDE),每個元數據元素(MDE)描述與內容有關的一方面屬性信息。MDCCSG屬性信息部分有兩個必選的關鍵元數據集合單元:內容描述信息集合單元(DISU)和內容管理信息集合單元(MISU)。其中,DISU側重描述內容的基本屬性及語義信息等;MISU側重描述網路環境中與內容管理有關的重要屬性信息。
2)內容元數據的統一規約方法。MDCCSG方法以內容元數據的統一描述框架為基礎,尤其注重內容元數據標識在編碼方式上的高效性和靈活性,以及在規約形式上的嚴謹性和統一性,包括:
(1)高效靈活的內容元數據編碼方式。為提高網路環境中內容元數據標識的分發效率和處理效率,MDCCSG方法不使用一般標識技術常採用的基於XML的編碼方式,而是針對MDCCSG標識短碼和MDCCSG屬性信息兩個部分,分別採用不同的編碼方式。在MDCCSG標識短碼部分,充分利用32位元組來定義主要以位(bit)為單位的內容元數據信息,通過二進制整數描述多個關鍵域,尤其側重對內容語義和安全信息等的描述,便於對內容使用者進行快速導引、過濾、匹配、推薦等服務。在MDCCSG屬性信息部分,通過元數據集合單元(MDSU)分類歸集多個元數據元素(MDE),並且每個元數據集合單元和每個元數據元素,都採用統一的編碼格式,指示出必要的解析輔助信息,使編碼簡潔緊湊、易於解析,儘量減少存儲空間開銷。同時,還通過預留、按需擴展等方式,確保MDCCSG標識的靈活可擴展性。
(2)嚴謹統一的內容元數據規約形式。MDCCSG方法可對所有品類的內容資源進行標識,所得到的MDCCSG標識都採用統一的格式標準,可以有效地歸集聚合,形成網路內容大數據的MDCCSG標識空間。並且,在每一個MDCCSG標識的內部,對具有共性的元數據信息的規約形式進行歸類提煉,確保使用儘可能少的類別,並且對這些類別進行嚴謹、規範地定義,使每種類別遵循一致的形式和描述體例。MDCCSG標識的主要規約形式分為四種:標識短碼中的域,用以位(bit)為單位的二進制整數進行規約;元數據集合單元(MDSU)頭部,長度為5~8個位元組,主要規約類型編號、元數據元素個數、元數據元素總長度、元數據元素速配信息等;元數據元素(MDE)頭部,長度為3~6個位元組,主要規約類型編號、成員個數、MDE淨荷長度等;元數據元素(MDE)的淨荷,占多個位元組,描述對應元數據元素的具體取值。MDCCSG屬性信息部分的頭部,也採用與MDSU頭部類似的規約形式。
3)核心MDCCSG標識要素定義。MDCCSG方法兼顧內容提供者、內容使用者和內容共享管理者等的主體訴求,甄選出多個核心的內容元數據標識要素(稱為MDCCSG標識要素,或簡稱標識要素)。MDCCSG標識要素同時涵蓋內容的語義描述、可信認證與安全保障等信息,支持“雙簽名機制”和“多級認證註冊+溯源追責”功能,顯著區別於2016年8月前已有其他標識方法。具體包括:
(1)MDCCSG標識短碼部分的核心標識要素。該部分的第1個關鍵標識要素是版本(Version),占3bits,用來描述MDCCSG標識的版本號,當前版本號為001(其中000保留),表示v1版本。在v1版本中,MDCCSG標識短碼部分的核心標識要素還包括:媒體類型(占5bits)、優先權別(占4bits)、標誌(占4bits)、解碼規則(占12bits)、內容來源(占28bits)、一級類別(占8bits)、二級類別(占8bits)、內容話題(占32bits)、正文類型(占8bits)、著作權與原創(占8bits)、安全能級碼(占8bits)、秒級時間戳(占40bits)、毫秒級時間戳(占10bits)、順序號(占22bits)、校驗和(占16bits)等。此外,在順序號之後、校驗和之前的部分,還保留了6個位元組。
(2)MDCCSG屬性信息部分的核心標識要素。該部分採用元數據集合單元(MDSU)對MDCCSG標識要素進行分類歸集,主要有三種MDSU:內容描述信息集合單元(DISU)、內容管理信息集合單元(MISU)和內容擴展信息集合單元(EISU),其中DISU和MISU是必選標識項。通過DISU歸集的核心標識要素包括:內容標題、內容關鍵字、內容摘要、作者信息、內容實體、版權資訊、檔案信息等;通過MISU歸集的核心標識要素包括:物理要素、內容出處、內容ID、傳播路徑、內容數字簽名、安全能級信息、內容責任鏈、全標識數字簽名等。每一個核心標識要素是一個元數據元素(MDE),具有相同格式的MDE頭部,並且對這些核心標識要素的位置順序和類型號等進行了限定。
(3)支持可信認證與安全保障的核心標識要素。MDCCSG方法相比一般標識方法的最大特點在於,它對內容可信認證與安全保障給予了內嵌支持(built-in support),同時它借鑑電子軌道的能級(Energy Level,EL)概念,創新性地引入安全能級概念,並將安全能級概念體現在MDCCSG標識中。與這一特點相關的核心標識要素主要包括:MDCCSG標識短碼部分的安全能級碼(它是安全能級信息的簡化描述),以及MDCCSG屬性信息部分的物理要素、內容數字簽名、安全能級信息、內容責任鏈、全標識數字簽名等。其中,物理要素集中描述“時、空、人、事、物”等物理維度信息;而內容數字簽名和全標識數字簽名支持“雙簽名機制”,可以確保兩個層次(內容本身及整個MDCCSG標識)的數據完整性和簽名者身份可信性;安全能級碼和安全能級信息描述內容本身的品質屬性(如安全性、可信度、影響力等);內容責任鏈可提供溯源和追責能力。綜合上述核心標識要素,可以實現“多級認證註冊+溯源追責”功能,支持網路內容大數據的共享共治需求。
一種支持共享共治的內容元數據標識的套用方法,它以MDCCSG標識為基礎,適用於構建網路環境下面向群體用戶的各種內容共享共治套用。基於MDCCSG標識,既可實現內容大數據的高效共享,又可實現內容大數據的科學治理,具體套用方法如下:
(1)基於MDCCSG標識實現內容高效共享。在內容共享類套用中,首先對所有內容建立對應的MDCCSG標識,然後將所有MDCCSG標識通過一對多傳輸模式,分發至所有內容用戶終端。用戶終端的處理系統按照用戶興趣特徵,對MDCCSG標識進行兩步匹配:第一步,根據MDCCSG標識短碼中的內容來源、一級類別、二級類別、內容話題等,進行快速匹配,完成海量MDCCSG標識的初級過濾;第二步,從經過初級過濾的MDCCSG標識中,進一步結合MDCCSG屬性信息部分的內容標題、內容關鍵字、內容摘要、作者信息、內容實體、版權資訊、原創聲明、檔案信息等,完成基於內容語義的深度分析、個性化精準匹配和智慧型化推薦等。從分發效率、分析效率、篩選效率、推薦效率等方面,大幅提高內容共享套用的主動服務效率。
(2)基於MDCCSG標識實現內容科學治理。在內容治理類套用中,通常配置一個權威的內容治理中心處理系統,簡稱中心處理系統。中心處理系統首先不斷聚集套用所轄範圍及其關聯領域的所有內容,並把這些內容的MDCCSG標識集中組織和管理,形成涵蓋所有可聚集內容的MDCCSG標識空間。內容的聚集途徑主要分為兩種:第一種,由中心處理系統通過網路進行內容主動採集,稱為主動採集方式;第二種,由內容的提供者及其上級管理機構,通過逐級認證的方式向中心處理系統進行註冊,稱為認證註冊方式。
對於主動採集方式獲取的內容,它的MDCCSG標識由中心處理系統生成;對於認證註冊方式獲取的內容,它的MDCCSG標識通常由內容提供者或其上級管理機構生成,並且會對該MDCCSG標識進行逐級認證註冊,直至最後由中心處理系統進行認證和註冊。在此過程中,中心處理系統會藉助MDCCSG標識空間,將內容的來源、可信度、重要性等信息,連同內容傳播路徑、責任主體等信息,一起通過數字簽名標示在內容的MDCCSG標識中。之後,再將需要分發的MDCCSG標識通過一對多傳輸模式傳送給內容用戶終端。用戶收到後,通過內容安全能級信息及內容安全能級碼,可以判別內容的真偽、可信度、影響力等;通過內容數字簽名和全標識數字簽名,可以鑑別內容原文及MDCCSG標識是否被篡改;通過傳播路徑、內容責任鏈、全標識數字簽名等,可以對內容進行循本溯源、依法追責等。
需要說明的是,採用MDCCSG方法可以設計和開發各種以內容為中心的複雜套用,在這些套用中,MDCCSG標識的上述兩種使用方法作為基礎,往往同時配合使用,共同提升套用的內容共享性能和科學治理能力。

有益效果

1.《支持共享共治的內容元數據標識及套用方法》主要針對網路環境下的內容大數據共享共治需求提出,採用統一的內容元數據描述框架與規約方法,對各種品類的內容資源進行統一標識,得到普適化MDCCSG標識,編碼方式高效靈活,規約形式嚴謹統一。
2.聯合MDCCSG標識短碼和MDCCSG屬性信息完整標識內容元數據,核心標識要素同時涵蓋內容語義描述、內容安全與可信等信息,全方位兼顧內容提供者、內容使用者和內容共享管理者等的主體訴求,可為內容可信認證與安全保障等提供內嵌支持(built-in support),顯著區別於一般標識方法。
3.基於該標識方法可以開發各種以內容為中心的複雜套用,支持內容大數據的高效聚合與分發、個性化主動服務、語義深度分析、認證註冊管理、依法溯源追責等,可大幅提升套用的內容共享性能和科學治理水平。

附圖說明

圖1為《支持共享共治的內容元數據標識及套用方法》所採用的內容元數據標識的具體描述框架,側重描述MDCCSG標識短碼部分。
支持共享共治的內容元數據標識及套用方法
圖1
圖2為MDCCSG標識中MDCCSG屬性信息部分的具體規約形式。
支持共享共治的內容元數據標識及套用方法
圖2

技術領域

《支持共享共治的內容元數據標識及套用方法》涉及一種支持共享共治的內容元數據標識及套用方法,可提升大數據和泛媒體環境下的內容大數據高效共享能力和科學治理水平,屬於網際網路與信息技術領域。

權利要求

1.一種支持共享共治的內容元數據標識方法,簡稱MDCCSG方法,其特徵在於:針對大數據和泛媒體環境下的內容大數據共享共治需求提出,包括三個部分:內容元數據的統一描述框架、內容元數據的統一規約方法、核心MDCCSG標識要素定義,具體如下:
(1)內容元數據的統一描述框架:該描述框架為每一份待標識的內容資源生成一個具有統一格式的內容元數據標識,稱為MDCCSG標識,它包括兩個部分:MDCCSG標識短碼和MDCCSG屬性信息;
(2)內容元數據的統一規約方法:針對MDCCSG標識短碼和MDCCSG屬性信息兩個部分,分別採用不同的編碼規約方式;在MDCCSG標識短碼部分,利用32位元組來定義主要以位(bit)為單位的內容元數據信息,通過二進制整數描述多個關鍵域,側重對內容語義和安全信息的描述;在MDCCSG屬性信息部分,通過元數據集合單元分類歸集多個元數據元素;還通過預留、按需擴展方式,確保MDCCSG標識的靈活可擴展性;
(3)核心MDCCSG標識要素定義:選出多個核心的內容元數據標識要素,這些標識要素涵蓋內容的語義描述信息、內容可信認證與安全保障信息,同時創設反映內容品質屬性的安全能級標識要素,並能夠支持“雙簽名機制”和“多級認證註冊+溯源追責”功能。
2.如權利要求1所述的支持共享共治的內容元數據標識方法,其特徵在於:MDCCSG標識短碼位於整個MDCCSG標識的前部,它的標準長度為32位元組(Byte),由多個域(field)組成,這些域存放與內容有關的若干關鍵信息描述碼,稱為基礎短碼;此外,MDCCSG標識短碼還可以帶有擴展部分,擴展部分是長度為16位元組整數倍的擴展信息描述碼,稱為擴展短碼,用來存放基礎短碼之外的擴展域;基礎短碼和擴展短碼合稱為MDCCSG標識短碼。
3.如權利要求1所述的支持共享共治的內容元數據標識方法,其特徵在於:MDCCSG屬性信息緊接在MDCCSG標識短碼之後,它包含多個元數據集合單元(Metadata Set Unit,MDSU),每個元數據集合單元包含多個元數據元素(Metadata Element,MDE),每個元數據元素(MDE)描述與內容有關的一方面屬性信息,MDCCSG屬性信息部分包含兩個必選的關鍵元數據集合單元:內容描述信息集合單元(DISU)和內容管理信息集合單元(MISU);其中,DISU側重描述內容的基本屬性及語義信息;MISU側重描述網路環境中與內容管理有關的重要屬性信息。
4.如權利要求1所述的支持共享共治的內容元數據標識方法,其特徵在於:MDCCSG標識的主要規約形式分為四種:標識短碼中的域,用以位(bit)為單位的二進制整數進行規約;元數據集合單元(MDSU)頭部,長度為5~8個位元組,主要規約類型編號、元數據元素個數、元數據元素總長度、元數據元素速配信息;元數據元素(MDE)頭部,長度為3~6個位元組,主要規約類型編號、成員個數、MDE淨荷長度;元數據元素(MDE)的淨荷,占多個位元組,描述對應元數據元素的具體取值;而MDCCSG屬性信息部分的頭部,採用與MDSU頭部類似的規約形式。
5.如權利要求1所述的支持共享共治的內容元數據標識方法,其特徵在於:核心MDCCSG標識要素定義具體包括:
(1)MDCCSG標識短碼部分的核心標識要素:該部分的第1個關鍵標識要素是版本,占3bits,用來描述MDCCSG標識的版本號;MDCCSG標識短碼部分的核心標識要素還包括:媒體類型、優先權別、標誌、解碼規則、內容來源、一級類別、二級類別、內容話題、正文類型、著作權與原創、安全能級碼、秒級時間戳、毫秒級時間戳、順序號、校驗和;此外,在順序號之後、校驗和之前的部分,還保留了6個位元組;
(2)MDCCSG屬性信息部分的核心標識要素:該部分採用元數據集合單元(MDSU)對MDCCSG標識要素進行分類歸集,主要有三種MDSU:內容描述信息集合單元(DISU)、內容管理信息集合單元(MISU)和內容擴展信息集合單元(EISU),其中DISU和MISU是必選標識項;通過DISU歸集的核心標識要素包括:內容標題、內容關鍵字、內容摘要、作者信息、內容實體、版權資訊、原創聲明、檔案信息;通過MISU歸集的核心標識要素包括:物理要素、內容出處、內容ID、傳播路徑、內容數字簽名、安全能級信息、內容責任鏈、全標識數字簽名;每一個核心標識要素是一個元數據元素(MDE),具有相同格式的MDE頭部,並且對這些核心標識要素的位置順序和類型號等進行了限定;
(3)支持可信認證與安全保障的核心標識要素:通過綜合關聯MDCCSG標識中的標識要素,提供對內容可信認證與安全保障的內嵌支持;相關的核心標識要素主要包括:MDCCSG標識短碼部分的安全能級碼(它是安全能級信息的簡化描述),MDCCSG屬性信息部分的物理要素、內容數字簽名、安全能級信息、內容責任鏈、全標識數字簽名;其中,物理要素集中描述“時、空、人、事、物”物理維度信息;而內容數字簽名和全標識數字簽名支持“雙簽名機制”,可以確保內容本身及整個MDCCSG標識的數據完整性和簽名者身份可信性;安全能級碼和安全能級信息描述內容本身的品質屬性;內容責任鏈可提供溯源和追責能力;綜合這些標識要素可實現“多級認證註冊+溯源追責”功能,支持網路內容大數據的共享共治需求。
6.一種支持共享共治的內容元數據標識的套用方法,其特徵在於:適用於構建網路環境下面向群體用戶的內容共享共治套用,既支持基於MDCCSG標識的內容共享套用,又支持基於MDCCSG標識的內容治理套用,具體如下:
(1)基於MDCCSG標識實現內容高效共享;在內容共享類套用中,首先對所有內容建立對應的MDCCSG標識,然後將所有MDCCSG標識通過一對多傳輸模式,分發至所有內容用戶終端;用戶終端的處理系統按照用戶興趣特徵,對MDCCSG標識進行兩步匹配:第一步,根據MDCCSG標識短碼進行快速匹配,完成海量MDCCSG標識的初級過濾;第二步,從經過初級過濾的MDCCSG標識中,進一步結合MDCCSG屬性信息部分,完成基於內容語義的分析、個性化匹配和主動推薦;
(2)基於MDCCSG標識實現內容科學治理;在內容治理類套用中,配置一個權威的內容治理中心處理系統,簡稱中心處理系統;中心處理系統首先不斷聚集套用所轄範圍及其關聯領域的所有內容,並把這些內容的MDCCSG標識集中組織和管理,形成涵蓋所有可聚集內容的MDCCSG標識空間;接著,對每一份提交認證註冊的內容,中心處理系統藉助MDCCSG標識空間,將內容的來源、可信度、重要性信息,連同內容傳播路徑、責任主體信息,一起通過數字簽名標示在內容的MDCCSG標識中;之後,再將需要分發的MDCCSG標識通過一對多傳輸模式傳送給內容用戶終端;用戶收到MDCCSG標識後,通過內容能級信息及內容能級碼,可以判別內容的真偽、可信度、影響力;通過內容數字簽名和全標識數字簽名,可以鑑別內容原文及MDCCSG標識是否被篡改;通過傳播路徑、內容責任鏈、全標識數字簽名,可以對內容進行循本溯源、依法追責。
7.如權利要求6所述的支持共享共治的內容元數據標識的套用方法,其特徵在於:內容的聚集途徑主要分為兩種:第一種,由中心處理系統通過網路進行內容主動採集,稱為主動採集方式;第二種,由內容的提供者及其上級管理機構,通過逐級認證的方式向中心處理系統進行註冊,稱為認證註冊方式;對於主動採集方式獲取的內容,它的MDCCSG標識由中心處理系統生成;對於認證註冊方式獲取的內容,它的MDCCSG標識通常由內容提供者或其上級管理機構生成,並且對該MDCCSG標識進行逐級認證註冊,直至最後由中心處理系統進行認證和註冊;內容的MDCCSG標識必須實現“雙簽名機制”,通過內容數字簽名保證內容本身的數據完整性和簽名者身份不可抵賴性;通過全標識數字簽名保證整個MDCCSG標識的數據完整性和簽名者身份不可抵賴性;進而基於“雙簽名機制”實現“多級認證註冊+溯源追責”功能。

實施方式

《支持共享共治的內容元數據標識及套用方法》的標識方法(稱為MDCCSG方法)主要針對大數據和泛媒體環境下的內容大數據共享共治需求提出,適用於對各種品類的內容資源進行統一標識,與之配套的套用方法可用於構建網路環境下面向群體用戶的內容共享共治套用。MDCCSG方法主要包括:內容元數據的統一描述框架、內容元數據的統一規約方法、核心MDCCSG標識要素定義等。具體實施方式如下:
1.內容元數據的統一描述框架。MDCCSG方法為每一份內容生成一個MDCCSG標識,如圖1所示。MDCCSG標識包括兩個部分:MDCCSG標識短碼和MDCCSG屬性信息,其中MDCCSG標識短碼是MDCCSG標識的定長部分,位於整個MDCCSG標識的前部。通常情況下,MDCCSG標識短碼只包含標準長度為32位元組(Byte)的基礎短碼;僅在套用確有必要的情況下,可在基礎短碼(32位元組)之後緊接長度為16位元組整數倍的擴展短碼,擴展短碼仍然屬於MDCCSG標識短碼。
MDCCSG屬性信息是MDCCSG標識的靈活可變長部分,位於MDCCSG標識短碼之後。具體的MDCCSG屬性信息描述框架如圖2所示。MDCCSG屬性信息是一個容器,它可以包含2~16個元數據集合單元(MDSU)。每個元數據集合單元也是一個容器,它可以包含1~16個元數據元素(MDE)。MDCCSG屬性信息部分通常只包含兩個必選的元數據集合單元:內容描述信息集合單元(DISU)和內容管理信息集合單元(MISU)。DISU主要描述內容的基本屬性及語義信息等;MISU主要描述與內容管理有關的屬性信息,尤其側重內容可信認證與安全保障等方面的信息。
2.內容元數據的統一規約方法。為引領網路內容實現高效地分發與共享,MDCCSG方法要求MDCCSG標識必須簡潔緊湊、規範嚴謹和易於解析,既能包含必要的元數據標識信息,又能確保其常規長度在1千位元組(KB)左右。因此,MDCCSG標識注重採用高效靈活的編碼方式和嚴謹統一的規約形式。MDCCSG方法摒棄常規內容標識的基於XML的編碼方式,在MDCCSG標識短碼部分採用二進制整數描述多個關鍵域,如圖1所示,實現對32位元組的充分利用和緊湊編碼。在MDCCSG屬性信息部分,採用基於容器的分類歸集方法,確保編解碼的簡單性、規範性和嚴謹性,如圖2所示。同時,MDCCSG標識還具備靈活的可擴展能力。
MDCCSG標識的主要編碼和規約形式分為4種:標識短碼中的域(field)、MDSU頭部(MDSU Head)、MDE頭部(MDE Head)、以及MDE淨荷(MDE Body),而MDSU頭部與MDE頭部形式相近,並且MDCCSG屬性信息的頭部也基於MDSU頭部來定義。其中,標識短碼中的域,用以位(bit)為單位的二進制整數進行編碼和規約,參見圖1。而MDSU頭部、MDE頭部、MDE淨荷的編碼和規約形式,參見圖2。在MDSU頭部和MDE頭部的第1個位元組,前面的4bits用來規約類型編號(Type),但在作為MDCCSG屬性信息頭部時,前面的4bits用來規約MDCCSG標識本身的語言類型(Language);後面的4bits用來規約解碼輔助信息(Helper)。MDSU頭部和MDE頭部的主要差別在於,MDSU頭部的最後帶有2個位元組的速配信息(Quick Matcher),用來快速指示該MDSU具體歸集了哪些類型的MDE。當然,如果是MDCCSG屬性信息頭部,它最後面的2個位元組速配信息,則用來快速指示具體歸集了哪些類型的MDSU。
此外,MDCCSG標識還遵循若干一致性規則和描述約定(參見圖2)。例如,保留所有類型編號為0(即Type=0)的MDSU和MDE,便於用戶按需引入與編解碼有關的解析信息,使MDCCSG標識更加靈活;另外,DISU的類型編號為1,MISU的類型編號為15,確保MISU始終是MDCCSG屬性信息部分的最後一個元數據集合單元,進而保證MISU能通過它最後一個MDE(即全標識數字簽名),對整個MDCCSG標識進行數字簽名。
3.核心MDCCSG標識要素定義。與其他常規標識方法不同的是,MDCCSG方法的特點在於同時涵蓋內容的語義描述、可信認證與安全保障等信息,形成具有普適性的標準化MDCCSG標識。MDCCSG方法分別針對MDCCSG標識短碼和MDCCSG屬性信息,甄選和定義了若干核心的內容元數據標識要素(稱為MDCCSG標識要素,簡稱標識要素),主要包括:(1)MDCCSG標識短碼部分的核心標識要素;(2)MDCCSG屬性信息部分的核心標識要素;(3)支持可信認證與安全保障的核心標識要素。其中(3)是對(1)和(2)的綜合闡述,突出MDCCSG標識的安全能級概念,以及內容可信認證與安全保障功能。
需要說明的是,以下實施例所提到的核心標識要素,雖然主要遵循MDCCSG標識v1版本的定義,但《支持共享共治的內容元數據標識及套用方法》顯然包括受其啟發的各種類似變換形式。
(1)MDCCSG標識短碼部分的核心標識要素(參見圖1)
版本(Version):占3bits,用來描述MDCCSG標識的版本號,當前版本號為001(其中000保留),表示MDCCSG標識v1版本。
媒體類型(Type of Media):占5bits,用來描述內容所屬的媒體類型。
優先權別(Precedence):占4bits,用來描述內容的緊急程度。
標誌(Flag):占4bits,用來指示後面是否具有擴展短碼等信息。
解碼規則(Parse Rule):占12bits,用來指示MDCCSG標識遵循的規則。
內容來源(Source):占28bits,用來描述內容的源頭信息。
一級類別(Category):占8bits,用來描述內容所屬的一級類別。
二級類別(Subcategory):占8bits,用來描述內容所屬的二級類別。
內容話題(Topic):占32bits,用來描述內容所涉及的話題信息。
正文類型(Content Type):占8bits,用來描述內容正文的語言及內容正文的類型信息(如音頻、視頻、文字、圖片、新媒體等)。
著作權與原創(Copyright&Originality):占8bits,用來描述內容是否帶有版權資訊聲明,以及內容是否屬於原創等信息。
安全能級碼(Security EL Code):占8bits,用來描述內容在認證級別、安全性、可信度、影響力等方面的信息。
秒級時間戳(Timestamp in Seconds):占40bits,用來描述從某個時間系統標準(GPS、北斗、POSIX等)的時間起點到提取時間戳時刻所流逝的秒數。
毫秒級時間戳(Timestamp in Milliseconds):占10bits,用來描述在提取時間戳時刻的1秒內的毫秒級精度數值。
順序號(Serial No.):占22bits,用來描述對MDCCSG標識進行註冊時所分配的序列號,順序號必須與秒級時間戳和毫秒級時間戳結合使用。
校驗和(Checksum):占16bits,用來描述MDCCSG標識短碼中基礎短碼部分(32位元組)除去校驗和部分(2位元組)的剩餘30位元組的校驗和。
(2)MDCCSG屬性信息部分的核心標識要素(參見圖2)
MDCCSG屬性信息部分必須包括兩個元數據集合單元(通常只含有這兩個元數據集合單元):內容描述信息集合單元(DISU,類型編號為1)和內容管理信息集合單元(MISU,類型編號為15),它們各自包含的核心標識要素如下。
內容描述信息集合單元(DISU)包含的核心標識要素主要有(以下類型號指的是在DISU內部的類型編號):
內容標題(Title):分配類型號為1,用來描述內容的名稱或標題信息。
內容關鍵字(Keyword):分配類型號為2,用來描述可反映內容主旨、概要的若干詞或短語。
內容摘要(Abstract):分配類型號為3,用來描述可反映內容的主旨、大意和中心思想的內容概要信息。
作者信息(Author):分配類型號為4,用來描述內容的創作者或機構信息。
內容實體(Entity):分配類型號為5,主要用來描述以“5W”為基礎的內容命名實體(named entity)信息,包括何人(who)、何時(when)、何地(where)、何事(what)、何因(why)等。
版權資訊(Copyright):分配類型號為6,用來描述與內容有關的版權資訊,通常含有各種產權聲明,包括智慧財產權等。
原創聲明(Originality):分配類型號為7,用來描述內容是否屬於原創,以及具體的原創者(或機構)等信息。
檔案信息(File Description):分配類型號為8,主要用來描述檔案的類型信息、格式信息、檔案大小等。
內容管理信息集合單元(MISU)包含的核心標識要素主要有(以下類型號指的是在MISU內部的類型編號):
物理要素(Physical Elements):分配類型號為1,用來描述與內容的產生、傳送和接收等有關的物理維度重要信息。
內容出處(Provenance):分配類型號為2,用來描述內容的原始出處信息。
內容ID(Content ID):分配類型號為3,用來描述關於內容的符合其他標準體系的標識符,如統一資源描述符(URI)、數字對象標識符(DOI)等。
傳播路徑(Propagation Path):分配類型號為4,用來描述內容在傳播過程中的路徑信息。
內容數字簽名(Signature of Content):分配類型號為12,用來存放針對內容正文本身的數字簽名信息。
安全能級信息(Security EL Info):分配類型號為13,用來描述內容本身的品質屬性信息(如安全性、可信度、影響力等)。
內容責任鏈(Chain of Responsibility):分配類型號為14,用來描述在內容的多級認證註冊過程中的逐級責任主體信息。
全標識數字簽名(Signature of Whole MDCCSG):分配類型號為15,用來存放針對整個MDCCSG標識的數字簽名信息。
(3)支持可信認證與安全保障的核心標識要素(參見圖1和圖2)
在MDCCSG標識中既詳盡描述內容的豐富語義信息,又為內容可信認證與安全保障等提供內嵌支持(built-in support),同時還原創性地引入安全能級概念,這是MDCCSG方法顯著區別於一般標識方法的創新特色。MDCCSG方法專門為內容安全與可信增加了若干核心標識要素,在MDCCSG標識短碼部分和MDCCSG屬性信息部分均有體現。其中,在MDCCSG標識短碼部分主要體現為安全能級碼(Security EL Code);在MDCCSG屬性信息部分主要體現為物理要素(Physical Elements)、內容數字簽名(Signature of Content)、安全能級信息(Security EL Info)、內容責任鏈(Chain of Responsibility)和全標識數字簽名(Signature of Whole MDCCSG)等。
安全能級碼是安全能級信息的簡化描述,主要用於向內容使用者指示內容關於認證級別、安全性、可信度、影響力等信息,雖然簡略但非常必要,有助於內容使用者採取安全和理性的閱讀、接受策略。物理要素主要針對內容在產生、傳送和接收等過程中所涉及的物理維度信息進行集中描述,主要包括:時間(絕對時間)、空間(導航或定位中的經度、維度、高度等)、人(經授權的人的電子身份信息)、事(相關聯的具體事件)、物(相關聯的硬體設備信息)等。
內容數字簽名和全標識數字簽名相配合,體現MDCCSG標識的“雙簽名機制”特色:一起保證內容本身和整個MDCCSG標識的數據完整性(防篡改)和簽名者身份可信性(不可抵賴)。安全能級信息主要描述內容的品質屬性,包括內容安全認證級別、內容的真偽性、內容的片面性、內容的影響程度及範圍等。內容責任鏈與全標識數字簽名配合使用,體現MDCCSG標識的“多級認證註冊+溯源追責能力”特色:在多級認證註冊過程中,每一級認證註冊主體,都先將自己的身份信息加入到內容責任鏈中,然後再進行全標識數字簽名;之後一旦有內容需要追責,直接檢查內容責任鏈即可逐級確定哪些主體需要擔責。
一種支持共享共治的內容元數據標識的套用方法,它是MDCCSG標識的配套套用方法。基於MDCCSG標識可以構建網路環境下面向群體用戶的各種內容共享共治套用,有效支持內容大數據的高效共享和科學治理等。下面結合兩類典型套用示例MDCCSG標識的套用方法,需要說明的是,在通常的內容大數據共享共治套用中,這兩種套用方法往往密不可分,需要配合使用。
(1)基於MDCCSG標識實現內容高效共享
假定某個網際網路內容提供商(ICP)基於MDCCSG標識構建了一個面向大眾的新聞推送套用,並且假定在新聞用戶的終端安裝了能夠處理MDCCSG標識的應用程式APP,該APP具備用戶定製、興趣感知、個性化推薦等功能。
該ICP首先對所有新聞內容建立相應MDCCSG標識,然後將新聞內容及其MDCCSG標識廣播分發給所有新聞用戶終端。用戶端APP收到ICP源源不斷分發的大量新聞內容和MDCCSG標識之後,首先根據MDCCSG標識短碼中的內容來源、一級類別、二級類別、內容話題等,按照用戶定製信息或APP感知的用戶興趣進行快速匹配,完成海量MDCCSG標識的初級過濾。接著,APP進一步結合MDCCSG屬性信息部分的內容標題、內容關鍵字、內容摘要、作者信息、內容實體、版權資訊、原創聲明、檔案信息等,對過濾之後的MDCCSG標識進行基於語義的深度分析、個性化精準匹配和智慧型化推薦等,並將反饋給用戶。如果用戶認可與其興趣相匹配或APP推薦的MDCCSG標識,APP再將對應的新聞內容正文呈現給用戶。這樣既能保證面向大眾的新聞分發和處理效率,又能滿足用戶的個性化服務需求。
(2)基於MDCCSG標識實現內容科學治理
以下描述一個典型但相對簡化的內容科學治理套用場景。假定某輿情管理機構負責管理多個ICP,而每個ICP又管理多個內容創建人員(Content Creator,CC),該輿情管理機構構建了一個基於MDCCSG標識的輿情分析套用。並且假定該輿情分析套用包括能夠處理MDCCSG標識的應用程式APP,該APP能夠針對每一份內容生成標準的MDCCSG標識,同時具備MDCCSG標識檢查和修改功能。該APP已經預先安裝在所有ICP和所有CC的套用系統中。
首先,每一個CC在創建一份新內容(包括專業新聞內容或各種自媒體內容,不妨記為cont)時,都同時用APP生成一個對應的MDCCSG標識(不妨記為mdi),其中包含他用私鑰對cont的簽名、記錄到內容責任鏈中的他的個人身份信息、以及他用私鑰對整個mdi的簽名(這裡涉及到第一次雙簽名)。接著,CC在發布cont的同時,會將cont和對應的mdi提交給他的上級管理ICP進行認證註冊。一旦收到CC發來的認證註冊請求,ICP立即根據cont等信息用APP對mdi進行認證檢查。如果通過檢查,ICP會重新修改mdi中的相關信息,並把ICP自己的身份信息記錄到內容責任鏈中,然後,用ICP自己的私鑰對整個mdi進行簽名(這裡涉及到第二次雙簽名)。之後,ICP將cont和最新的mdi提交給輿情管理機構的中心處理系統進行認證註冊。
緊接著,中心處理系統會根據它的MDCCSG標識空間,對mdi進行更加嚴苛的認證檢查。如果通過檢查,中心處理系統會重新修改mdi中的相關信息,並把輿情管理機構自己的身份信息追加記錄到內容責任鏈中,然後用輿情管理機構自己的私鑰,對整個mdi進行簽名(這裡涉及到第三次雙簽名),完成對cont及mdi的認證和註冊。如果出現因為需要追責的情況而沒有通過檢查,中心處理系統可以根據mdi中的內容責任鏈等信息,進行依法逐級追責。這樣就可以建立起基於MDCCSG標識的“多級認證註冊+溯源追責”機制。當然,在上述過程中,還可利用知識挖掘、實體連結、深度學習神經網路等已有方法和技術,進一步結合中心處理系統的MDCCSG標識空間、以及mdi中的安全能級碼和安全能級信息等,進行基於語義和內容可信認證的深度治理。

榮譽表彰

2019年7月15日,《支持共享共治的內容元數據標識及套用方法》獲第十一屆江蘇省專利項目獎優秀獎。

相關詞條

熱門詞條

聯絡我們