知識聯邦

知識聯邦

知識聯邦, 是同盾科技在“2019網易未來大會”之“未來數字生活論壇”上,提出的概念,是將散落在不同機構或個人的數據聯合起來,轉換成有價值的知識,同時在聯合過程中採用安全協定來保護數據隱私。知識聯邦,不是一種單一的技術方法,而是一套理論框架體系,是人工智慧、大數據、密碼學等幾個領域交叉融合的產物。

基本介紹

  • 中文名:知識聯邦 
  • 外文名:Knowledge Federation 
  • 所屬學科:人工智慧、大數據、密碼學 
  • 產生時間:2019年11月24日 
  • 套用領域:包括智慧金融、智慧政務、智慧醫療、智慧城市 
產生背景,定義,基本內涵,智邦平台,主要套用,人工智慧,

產生背景

用戶隱私保護日益成為關注熱點,而同時打破數據孤島進行數據共享和交換也會面臨數據安全的問題。尤其是近年來數據泄漏事故頻發,數據安全和隱私保護問題引起了全球的關注。2016年11月,我國通過了《中華人民共和國網路安全法》,旨在通過多項舉措加強個人信息和數據保護。2018年5月在歐盟生效的《通用數據保護條例》(GDPR)規定用戶可以要求經營者刪除其個人數據並且停止利用其數據進行建模,而違背該條例的企業將會面臨巨額罰款。在GDPR正式實施一個月後,美國加利福尼亞州頒布了《2018年加州消費者隱私法案》(CCPA),加強消費者隱私權和數據安全保護。2019年5月28日,我國國家網際網路信息辦公室發布了《數據安全管理辦法(徵求意見稿)》,提出了收集重要數據的備案制以及向第三方提供重要數據的批准制的新要求。中國人民銀行近期正式發布了《個人金融信息保護技術規範》,從安全技術和安全管理兩個方面,對個人金融信息保護提出了規範性要求。而隨著2020年《信息安全技術 個人信息安全規範》修訂版正式獲批發布,數據安全和隱私保護將迎來新時代。
數據、算法和算力三要素構成了人工智慧2.0世界的基礎設施,現實世界中,人工智慧所需的數據,大多都會以“數據孤島”的方式分布。而與此同時,數據也正式被中央認定為新型生產要素,這勢必會對隱私與安全提出更高、更嚴格的規範。
無論是隱私、數據泄露的問題,還是可能引發的數據壟斷問題,其癥結都在於傳統深度學習下數據的集中處理模式。一大批專家學者決定另闢蹊徑,同盾科技人工智慧研究院團隊在院長、佛羅里達大學終身教授李曉林的帶領下,經過長期打磨,在數據“可用不可見”領域的探索取得了很多前沿性成果。
知識聯邦,作為眾多前沿性成果之一,是一種安全的數據和知識交換框架體系,知識聯邦有助於打破數據孤島,推動各地區各部門間數據共享交換,充分挖掘社會數據資源價值。

定義

知識聯邦是將散落在不同機構或個人的數據聯合起來轉換成有價值的知識,同時在聯合過程中採用安全協定來保護數據隱私。知識聯邦不是一種單一的技術方法,它是一套理論框架體系,是人工智慧、大數據、密碼學等幾個領域交叉融合的產物。
知識聯邦是一個支持安全多方檢索、安全多方計算、安全多方學習、安全多方推理的統一框架,為打造安全的知識融合、管理、使用的生態系統提供設計指南和標準。它可以用於涉及到數據安全和隱私保護諸多領域,尤其是在金融、保險、醫療或政務等行業中有非常大的套用潛力。
知識聯邦是一個國產原創、自主可控、全球引領的技術體系,該體系在解決了數據割裂和數據安全問題的同時,可以進一步開展跨源跨域的知識發現、表示、歸納、推理和演繹,為人工智慧3.0奠定了堅強的基石。
數據作為一種新型生產要素,必將成為智慧城市建設的有力抓手。社會數據的套用場景也日益豐富,可以促進5G、大數據中心、工業網際網路、人工智慧等新型基礎設施建設,進而提升全社會數位化水平。這正是知識聯邦迎來的一個歷史新機遇。我們也相信知識聯邦打造的數據安全的人工智慧生態系統為新基建國家級戰略規劃貢獻一份力量。
知識聯邦可以根據不同的方式進行分類,可以按聯邦階段、數據特點、參與對象類型和套用目的進行劃分。
知識聯邦
知識聯邦
其中,知識聯邦按照聯邦發生的階段可以分為四個層級:信息層、模型層、認知層和知識層,其整體層級結構如圖2所示。
知識聯邦
圖2. 知識聯邦的層級
信息層
信息層聯邦是指在將原始數據匯聚到第三方伺服器之前,必須對參與方數據進行清洗、轉換和加密,讓數據變成有價值的密文信息,如圖3所示。
知識聯邦
圖3. 信息層聯邦
模型層
模型層聯邦主要發生在模型訓練過程中。基本思想是首先在各個參與方分別利用自身數據訓練學習一個初步模型;然後將模型更新的模型參數加密後上傳至第三方伺服器進行聚合;聚合後的更新參數再分發給各個參與方用於各參與方本地模型的參數更新;模型疊代後再進行聚合,如此重複多次直到模型收斂,如圖4所示。這裡知識提取過程發生在參與方內部,局部知識聚集後可以有效平衡各方的數據偏差,形成更魯棒的全局知識。
模型層聯邦與現在熱門的聯邦學習在本質上是一致的。模型層聯邦的優勢是訓練學習是分散式的,即模型的訓練、最佳化發生在各個參與方,第三方只進行聚合,計算開銷小。但其最大劣勢是聯邦過程需要頻繁地進行模型參數的上傳和分發,通信成本高。尤其是對網路安全要求較高的金融機構,通常會將內外網隔離,如果是在區域網路訓練,多方只能在外網定時聯通聚合,必然會導致訓練周期變長。此外,由於模型參數中蘊含著數據隱私信息,所以在上傳聚合前同樣也需要同態加密或差分隱私等方法進行安全處理。
知識聯邦
圖4. 模型層聯邦
認知層
認知層和模型層的顯著區別在於,是用嵌套特徵而不是模型更新進行聯邦。嵌套特徵可以是深度神經網路中的全連線層,也可以是特徵提取後得到的高層語義特徵或局部認知結果。在第三方聯邦時,會基於局部嵌套特徵再訓練或學習一個獨立模型,訓練過程也會與各參與方互動并迭代至收斂。即聯邦前先用本地數據提取嵌套特徵,然後再加密傳送到第三方伺服器進行聯邦知識發現。局部嵌套特徵可以看作是元知識,聯邦集成後創造的知識時一種綜合知識。
知識層
一旦初始知識以某種方式構建並保存在知識庫中,聯邦將進入一個更高級的階段,即知識層聯邦。在該階段,多個知識庫中的知識相互協作進一步演繹出更重要的知識。為了能讓知識不同知識源之間自由流動,需要將每個知識庫當作一個知識節點連線起來構建一個知識網路。值得強調的是,知識網路與知識圖譜完全不同,但又密切相關。後者主要描述實體及其相互關係,以圖表形式組織。知識網路是建立在知識圖譜之上的一種網路,它是由與多個特定領域知識組成的網路。
簡單地說,知識層聯邦實際上是通過知識融合或推理,讓知識在知識網路中自由流動,以創造或挖掘出更全面、更有價值的知識,這對管理決策有很大幫助。知識推理和演繹相關技術在分散式環境下的擴展,是知識層聯邦落地的一種解決方案。
除了按照聯邦發生的階段對知識聯邦進行分層之外,還可按照數據特點對知識聯邦進行分類。參與聯邦的各方數據分布有時是相同的,有時又有很大差異。根據數據分布的差異,可以將知識聯邦劃分為:跨樣本聯邦、跨特徵聯邦和複合型聯邦。
知識聯邦按照聯邦參與對象類型分為三種:個體間聯邦、機構內聯邦、機構間聯邦。
聯邦是一種數據和知識安全交換協定,按照聯邦套用目的的不同,可以細分為聯邦共享、聯邦計算、聯邦學習、聯邦預測和聯邦推理。因為聯邦本身就是解決安全多方問題的,所以這些術語也可以稱作:安全多方共享、安全多方計算、安全多方學習、安全多方預測和安全多方推理。這些套用與信息層、模型層、認知層和知識層聯邦有潛在的對應關係,具體如表1所示。
表1.聯邦套用與聯邦階段對應關係
聯邦套用
別名
關注重點
聯邦階段
聯邦共享
安全多方共享
數據查詢檢索
信息層
聯邦計算
安全多方計算
線性統計分析
信息層
聯邦學習
安全多方學習
複雜模型訓練學習
模型層、認知層
聯邦預測
安全多方預測
模型預測使用
信息層、模型層
聯邦推理
安全多方推理
知識推理和演繹
認知層、知識層

基本內涵

知識聯邦的基本內涵包括:
基於數據安全交換協定,來利用多個參與方的數據;
基於多方數據進行安全的知識共創、共享和推理,實現數據可用不可見;
支持統一的多層次的知識聯邦生態:信息層、模型層、認知層和知識層;
管理知識安全聯邦的全生命周期:統計查詢、訓練、學習、表示、預測和推理及其監管、仲裁和評價。

智邦平台

知識聯邦平台化核心需要考慮三個要素:數據隱私安全性、模型知識開放性、平台功能實用性。智邦平台(iBond)是同盾科技基於知識聯邦理論體系打造的工業級套用產品,是知識聯邦的參考實現,構建數據安全的人工智慧生態系統。
平台開放生態
智邦平台包括四大核心模組和兩個中間件。核心模組包括:
1. 功能服務模組:主要提供實際套用中需要的諸如賬戶管理、配置管理、費用統計、測試分析、模型發布等服務。
2. 任務場景模組:面向需求場景設計模型策略知識,開展學習、計算、檢索等任務。比如:信用分、欺詐分、多頭貸等。
3. 開放平台模組:主要完成算法聯邦化的實現,支持數據加密解密、計算或學習、知識歸集等功能。
4. 基礎設施模組:提供底層的公共設施,包括:離線/實時任務調度監控、計算環境、資源調度、數據/知識存儲。
中間件具體如下:
通信中間件:支持內外部網路通信,對接生產/預發環境以及其他參與方。
數據安全交換中間件:對接多源異構數據,實現數據標準化和分類分級脫敏加密等。
平台參與者角色定位
聯邦環境中存在多種不同的角色參與其中,具體可以分為:
1. 數據提供者,參與聯邦計算或學習等行為的數據擁有者。數據提供者通過聯邦的方式對外進行安全數據交換,但是數據不離開本地,數據提供者仍舊擁有數據控制權。
2. 模型設計者,依託聯邦平台設計聯邦化模型策略的人員。模型設計者不用關心數據提供者如何進行通信或數據交換,也不需要過多關心模型如何聯邦化實施,只需要關心如何利用參與方數據特徵設計高性能可解釋的模型或依託常識來設計某種策略進行多方計算。
3. 模型使用者,使用聯邦平台提供的模型策略的用戶。這些用戶不需要關心模型是如何聯邦,調用了哪些參與方的數據,他們只需要利用這些模型開啟套用或服務即可。
4. 平台運營方,即聯邦平台的運營管理者。平台運營方會設計平台運營收費模式,制定相應的利潤分配規則,以及平台的發展規劃。
5. 平台提供方,即聯邦平台的開發和維護升級的技術提供方。平台運營方通常會委託平台提供方開發和維護平台,雙方保持緊密合作關係。
6. 第三方,也稱仲裁方或協調方。第三方只承擔模型知識的歸集工作,不像傳統的強中心化模式種的第三方,這裡的第三方只是一個協調者,不會解密信息,存儲數據。
知識聯邦
圖5. 智邦平台

主要套用

知識聯邦通過安全的數據交換實現知識共創和共享,是打破部門數據割裂,同時確保數據安全和隱私保護的關鍵,在金融、保險、政務和醫療行業有很大套用潛力,也是實現智慧金融、智慧政務和智慧醫療的基礎。
智慧金融
智慧金融領域中所有需要多方參與建模、知識共享的場景都可以套用知識聯邦。尤其是在貸前風險防控,聯合行銷和多頭共債中,可以很好提升企業的核心競爭力和行業影響力。在風控評分中又可以細分為個體信用評估和企業信用評估,具體聯邦建模的形式完全取決於參與方之間數據的特點。由於不同機構間含有各種不同維度客戶特徵,常以跨特徵聯邦為主。
智慧政務
政務數據通常會分散在各個部門裡面,每家機構的數據獨立存儲,獨立維護,彼此間相互孤立。政府部門間數據共享不足、開放利用不夠、質量標準不一,這是一個普遍存在的現象。現在地方政府在打造大數據中心也是希望能夠破解數據割裂的問題,但在實踐過程中,橫向數據共享互動仍存在困難,稅務、民航、通信管理等垂管部門系統相對獨立、數據無法接入地方共享平台。
知識聯邦是一種很好的解決方案。基於各部門數據進行建模分析,地方政府可以進一步加強安全管控和預警預判。比如在疫情期間,同盾科技推出的“基於知識聯邦的人群防控和疫情智慧型監測及智慧型決策分析平台”入選杭州市經濟和信息化局(經信局)發布的優秀防疫AI產品,該產品底層採用知識聯邦保障數據隱私安全,實現跨部門和地區的人群數據聯邦共享,並在聯邦共享的基礎上進行聯邦預測和聯邦推理。通過多部門數據協作,尤其是人群運動和遷徙軌跡和社交關係分析,讓流行病學、社交活動和遷移行為等不同領域知識互通互聯,自由流動,進而可以深度挖掘潛在風險人群,精準預測疫情,幫助政府部門提前做好防控防範工作。
智慧醫療
知識聯邦在醫療領域有廣泛的套用前景,常見的套用包括醫藥發現、智慧型影像分析、疾病知識推理等。醫藥發現主要是通過疾病診療變化和個人用藥情況綜合分析藥品對疾病治療的效果,進而探索和發現新的藥物。通過聯邦的方式,可以在保護個人的疾病信息的同時,進行大範圍的藥品臨床效果分析。
智慧城市
在智慧城市建設發展中,知識聯邦同樣可以發揮重要的作用。在車聯網,通過知識聯邦可以保護車主行為習慣的前提,讓每輛車輛與周邊車輛保持安全的信息交流,為自動駕駛形成助力。在城市交通中,交通信號燈可以根據不同方向車流人流量智慧型調整。這種基於知識聯邦智慧型控制信號燈方式,不會泄漏行人或車輛的隱私,同時可以避免目前固定間隔方式導致有的方向交通擁堵,而有的方向則是沒有車輛通過。而在社區監控或智慧型門禁中,利用知識聯邦可以將區域或家庭監控系統與公安的犯罪嫌疑人資料庫連通,通過本地計算分析,在保護過往行人的隱私情況下,對發現的潛質嫌疑人及時報警。

人工智慧

知識聯邦致力於打造數據安全的人工智慧生態系統。知識聯邦的設計理念受到了人工智慧發展歷史的啟發和影響,也希望成為推動下一代人工智慧發展突破的一個關鍵環節。
雖然目前還沒有完備的理論突破來實現AI 3.0,學術界和工業界也沒有統一的看法。AI 3.0預計會融合前面近百年的人工智慧技術達到很有知識、很有感覺、擅長推理決策。我們相信知識的智慧型發現、歸納、演繹和推理決策是通向AI 3.0的必經之路。
知識聯邦倡導統一的多層次的安全聯邦,從信息層、模型層、認知層到知識層。AI 3.0也必須解決數據安全、個人隱私以及社會安全、人類安全等核心問題。知識聯邦的安全人工智慧生態系統為AI 3.0奠定了堅實的基石。知識聯邦的理論、算法和智邦平台的實現機制,支持從數據到知識的發現、融合、歸納、推理及演繹的各個層面,為走向AI 3.0鋪平道路。作為知識聯邦生態的重要組成部分,監管、仲裁和評價機制也為未來AI 3.0的社會安全保障提供理論支撐和實踐經驗。

相關詞條

熱門詞條

聯絡我們