聯邦機器學習

聯邦機器學習

聯邦機器學習(Federated machine learning/Federated Learning),又名聯邦學習,聯合學習,聯盟學習。聯邦機器學習是一個機器學習框架,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模。

基本介紹

  • 中文名:聯邦機器學習
  • 外文名:Federated machine learning/Federated Learning
  • 背景基礎:機器學習
  • 套用領域:包括金融服務、物流、供應鏈等
  • 領 域:計算機技術
背景介紹,舉例說明,聯邦學習重要節點及里程碑,相關術語,開源框架,標準及規範,作用,套用,

背景介紹

隨著數位化進程加快,產生了大量數據。通過機器學習技術可以自動化地挖掘數據中蘊藏的寶藏,經過大量數據訓練出來的機器學習模型已經套用在各類場景中,正在深刻改變著我們的世界,例如精準醫療、臨床輔助診斷、新藥研發、人像識別、聲紋識別、千人千面推薦算法、圖片、語音、自然語言等多模態學習。在套用中,模型的精度、泛化能力等至關重要,而這些都賴於機器對大量數據的學習。
受限於法律法規、政策監管、商業機密、個人隱私等數據隱私安全上的約束,多個數據來源方無法直接交換數據,形成“數據孤島”現象,制約著人工智慧模型能力的進一步提高。聯邦學習的誕生即是為了解決這一問題。
聯邦學習技術及數據隱私保護大會上明確提出了“聯邦機器學習”這個概念。數據是機器學習的基礎 。而在大多數行業中,由於行業競爭、隱私安全、行政手續複雜等問題,數據常常是以孤島的形式存在的。甚至即使是在同一個公司的不同部門之間實現數據集中整合也面臨著重重阻力。在現實中想要將分散在各地、各個機構的數據進行整合幾乎是不可能的,或者說所需的成本是巨大的。隨著人工智慧的進一步發展,重視數據隱私和安全已經成為了世界性的趨勢。每一次公眾數據的泄露都會引起媒體和公眾的極大關注,例如Facebook的數據泄露事件就引起了大範圍的抗議行動。
針對數據孤島和數據隱私的兩難問題,多家機構和學者提出解決辦法。聯邦學習的技術理論基礎可以追溯到分散式資料庫(Distributed Database)關聯規則挖掘技術,1996年,Cheung等人首次提出在分散式資料庫中實現關聯規則(Association Rules)挖掘。2006年,Yu等人提出了在橫向和縱向分割的數據上,實現帶有隱私保護的分散式支持向量機建模。2012年,王爽教授團隊首次提出分散式隱私保護下的線上機器學習等概念,並首次解決醫療線上安全聯邦學習問題,該框架服務於多個國家級醫療健康網路,也是聯邦學習系統構架層面的突破。針對手機終端和多方機構數據的隱私問題,谷歌公司和微眾銀行分別提出了不同的“聯邦學習”(Federated Learning)算法框架。谷歌公司提出了基於個人終端設備的“聯邦學習”(Federated Learning)算法框架,而AAAI Fellow 楊強教授與微眾銀行隨後提出了基於“聯邦學習”(Federated Learning)的系統性的通用解決方案,可以解決個人(2C)和公司間(2B)聯合建模的問題。在滿足數據隱私、安全和監管要求的前提下,設計一個機器學習框架,讓人工智慧系統能夠更加高效、準確的共同使用各自的數據。2020年,李曉林教授首創知識聯邦理論體系。2021年3月,IEEE正式發布聯邦學習首個國際標準《IEEE 3652.1-2020 - IEEE Guide for Architectural Framework and Application of Federated Machine Learning》。

舉例說明

舉例來說,假設有兩個不同的企業 A 和 B,它們擁有不同數據。比如,企業 A 有用戶特徵數據;企業 B 有產品特徵數據和標註數據。這兩個企業按照上述 GDPR 準則是不能粗暴地把雙方數據加以合併的,因為數據的原始提供者,即他們各自的用戶可能不同意這樣做。假設雙方各自建立一個任務模型,每個任務可以是分類或預測,而這些任務也已經在獲得數據時有各自用戶的認可,那問題是如何在 A 和 B 各端建立高質量的模型。由於數據不完整(例如企業 A 缺少標籤數據,企業 B 缺少用戶特徵數據),或者數據不充分 (數據量不足以建立好的模型),那么,在各端的模型有可能無法建立或效果並不理想。聯邦學習是要解決這個問題:它希望做到各個企業的自有數據不出本地,而後聯邦系統可以通過加密機制下的參數交換方式,即在不違反數據隱私法規情況下,建立一個虛擬的共有模型。這個虛擬模型就好像大家把數據聚合在一起建立的最優模型一樣。但是在建立虛擬模型的時候,數據本身不移動,也不泄露隱私和影響數據合規。這樣,建好的模型在各自的區域僅為本地的目標服務。在這樣一個聯邦機制下,各個參與者的身份和地位相同,而聯邦系統幫助大家建立了“共同富裕”的策略。 這就是為什麼這個體系叫做“聯邦學習”。
聯邦機器學習
加密訓練
根據孤島數據的分布特點將聯邦學習分為三類。
數據分布基本可以分為以下三種情況:
兩個數據集的數據特徵(X1,X2,…)重疊部分較大,而用戶(U1, U2…)重疊部分較小;
兩個數據集的用戶(U1, U2…)重疊部分較大,而數據特徵(X1,X2,…)重疊部分較小;
兩個數據集的用戶(U1, U2…)與數據特徵重疊(X1,X2,…)部分都比較小。
為了應對以上三種數據分布情況,我們把聯邦學習分為橫向聯邦學習、縱向聯邦學習與聯邦遷移學習。
聯邦機器學習
橫向聯邦學習
橫向聯邦學習,也稱為特徵對齊的聯邦學習
縱向聯邦學習,也稱為樣本對齊的聯邦學習
聯邦機器學習
縱向聯邦學習
遷移學習
聯邦機器學習
遷移學習
數據矩陣的橫向的一行表示一條訓練樣本,縱向的一列表示一個數據特徵。聯合多個參與者的具有相同特徵的多行樣本進行聯邦學習,即各個參與者的訓練數據是橫向劃分的,稱為橫向聯邦學習(Horizontal Federated Learning)。橫向聯邦學習也稱為特徵對齊的聯邦學習(Feature-Aligned Federated Learning),即橫向聯邦學習的參與者的數據特徵是對齊的。橫向聯邦可以增加訓練樣本總量。
聯合多個參與者的共同樣本的不同數據特徵進行聯邦學習,即各個參與者的訓練數據是縱向劃分的,稱為縱向聯邦學習(Vertical Federated Learning)。縱向聯邦學習也稱為樣本對齊的聯邦學習(Sample-Aligned Federated Learning),即縱向聯邦學習的參與者的訓練樣本是對齊的。縱向聯邦可以增加訓練數據特徵維度。

聯邦學習重要節點及里程碑

2012年
王爽:提出醫療線上安全聯邦學習框架
2012年,王爽教授團隊提交並於2013年發表在SCI學術期刊Journal of Biomedical Informatics的《Expectation Propagation Logistic Regression (EXPLORER): Distributed privacy-preserving online model learning》論文,這是目前有據可查的全球第一篇醫療線上安全聯邦學習文獻,論文提出了數據“可用不可見”問題,在不需要分享原始個體數據的情況下,利用多個數據源進行帶有隱私保護的聯合建模的概念。同年,該團隊發表了開源聯邦學習框架“WebGLORE: a web service for Grid Logistic Regression”(9),該底層技術服務於多個醫療網路數據的聯邦建模需求。
2016年
Google:聯邦學習移動端套用框架
2016年,Google AI團隊提出聯邦學習算法框架套用於移動網際網路手機終端的隱私保護。該算法框架主要針對設備數據集進行協同機器學習模型訓練,讓數據在不離開設備的情況下,可以在多種設備上訓練共享機器學習模型。2019年,Google實現了第一個產品級的移動端聯邦學習系統,並把該系統從聯邦學習推廣到聯邦計算和聯邦分析。
2019年
微眾銀行:發布聯邦學習開源項目FATE
2019年2月,微眾銀行AI團隊對外發布自主研發的聯邦學習開源項目FATE(Federated AI Technology Enabler)。FATE提供了一種帶有數據隱私保護功能的分散式安全計算框架,為機器學習、遷移學習算法提供隱私計算支持。同時,FATE提供了一套跨域互動信息管理方案,提供聯邦學習信息安全審計功能。
2020年
李曉林:提出知識聯邦學習理論體系
2020年,李曉林教授提出知識聯邦理論體系(7),知識聯邦是一個安全多方套用框架,它支持安全多方查詢、安全多方計算、安全多方學習、安全多方推理等聯邦套用。知識聯邦關注的是數據到知識的全生命周期隱私安全保護,包括知識創造、管理和使用及其監管,設計目標是面向生產環境的知識聯邦生態系統,致力於推動人工智慧發展。

相關術語

技術——涉及到的技術及概念
① 機器學習
a. 機器學習
b. 深度學習
c. 遷移學習
d. 分散式機器學習
②分散式存儲
a.kvdb數據存儲;
b. 外部存儲持久化;
d. 記憶體數據存儲
e. 保證數據的可用性、可靠性。
③加密算法
a. 同態加密
b. 秘密共享
c. 遺忘傳輸
d. 混淆電路
e. RSA加密算法
f. 軟體保護擴展
④技術路徑
聯邦遷移學習
安全聯邦學習
知識聯邦
技術成果及開源論文
1.H. Brendan McMahan, Eider Moore, Daniel Ramage, and Blaise Agüera y Arcas. 2016. Federated Learning of DeepNetworks using Model Averaging. CoRR abs/1602.05629 (2016). arXiv:1602.05629
2.Qiang Yang, Yang Liu, Tianjian Chen, Yongxin Tong. "Federated Machine Learning: Concept and Applications". ACM Transactions on Intelligent Systems and Technology (TIST), Volume 10 Issue 2, February 2019.
3.Jakub Konecný, H. Brendan McMahan, Felix X. Yu, Peter Richtárik, Ananda Theertha Suresh, and Dave Bacon. 2016.Federated Learning: Strategies for Improving Communication Efficiency
4. 楊強,劉洋,陳天健,童詠昕, “聯邦學習”。 中國計算機學會通訊, 第14卷,第11期,2018年11月。
5. 楊強, “GDPR對AI的挑戰和基於聯邦遷移學習的對策”,. 中國人工智慧學會通訊,第8卷,第8期2018年8月。
6.Jakub Konecný, H. Brendan McMahan, Daniel Ramage, and Peter Richtárik. 2016. Federated Optimization: DistributedMachine Learning for On-Device Intelligence, CoRR abs/1610.02527 (2016). arXiv:1610.02527
7. Andrew Hard, Kanishka Rao, Rajiv Mathews, Swaroop Ramaswamy, Françoise Beaufays, Sean Augenstein, Hubert Eichner, Chloé Kiddon, Daniel Ramage. "Federated Learning for Mobile Keyboard Prediction". arXiv.org, 2018.11.08
8. Abhishek Bhowmick, John Duchi, Julien Freudiger, Gaurav Kapoor, Ryan Rogers. “Protection Against Reconstruction and Its Applications in Private Federated Learning”. arXiv, 2018.12.03.
9. Florian Hartmann. "Federated Learning for Firefox".github.io, 2018.08.27.

開源框架

(1)聯邦學習FATE (Federated AI Technology Enabler)是微眾銀行AI團隊自主研發的開源聯邦學習框架,為聯邦AI生態提供了一種安全計算框架。
作為一個工業級的聯邦學習框架,聯邦學習能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和建模。FATE提供了一種基於數據隱私保護的安全計算框架,為機器學習、深度學習、遷移學習算法提供強有力的安全計算支持。 安全底層支持同態加密、秘密共享、哈希散列等多種多方安全計算機制,算法層支持多方安全計算模式下的邏輯回歸、Boosting、聯邦遷移學習等。
2019年2月18日,FATE在GitHub正式發布了0.1版本。
(2)谷歌是聯邦學習技術及套用的積極推動者,於2019年2月發布了開源的聯邦學習開源框架TensorFlow Federated。TensorFlow Federated運行於谷歌的開源深度學習框架TensorFlow之上,方便科研人員和套用開發者基於分散式的數據(即數據沒有集中在一起)來訓練全局模型。

標準及規範

為了加速“聯邦學習”的普及與落地,微眾銀行於2018年10月向IEEE標準協會提交關於建立聯邦學習標準的提案——“Guide for Architectural Framework and Application of Federated Machine Learning”(聯邦學習基礎架構與套用標準)。該立項提案已於2018年12月獲批。由微眾銀行主辦的IEEEP3652.1(聯邦學習基礎架構與套用)標準工作組第一次會議在深圳成功召開,此次會議的召開也正式宣告“聯邦學習”走入行業規範。
2020年7月,中國信息通信研究院聯合華控清交、鍩崴科技、微眾銀行、數牘科技、同盾科技等十餘家單位及企業制定了聯邦學習技術標準——《基於聯邦學習的數據流通產品技術要求與測試方法》,該標準規定了基於聯邦學習的數據流通產品必要的技術要求及相應的測試方法,適用於基於聯邦學習的數據流通產品的研發、測試、評估和驗收等場景。
2022年2月,中國信息通信研究院聯合卓信大數據、鑄基計畫、鍩崴科技、百度網訊、洞見科技等多家聯邦學習產業鏈上下游企業編寫的《聯邦學習場景套用研究報告(2022年)》正式發布,標誌著中國隱私計算領域進入到了一個快速發展階段。

作用

聯邦機器學習可以避免非授權的數據擴散和解決數據孤島問題 。

套用

Ocean採用了“聯邦機器學習”。

相關詞條

熱門詞條

聯絡我們