聯邦機器學習又名聯邦學習,聯合學習,聯盟學習。聯邦機器學習是一個機器學習框架,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模。
基本介紹
- 中文名:聯邦機器學習
- 外文名:Federated machine learning/Federated Learning
- 背景基礎:機器學習
- 套用領域:包括金融服務、物流、供應鏈等
- 領 域:計算機技術
背景,定義,相關術語,開源框架,標準及規範,聯盟學習生態,作用,套用,
背景
聯邦學習技術及數據隱私保護大會上明確提出了“聯邦機器學習”這個概念。數據是機器學習的基礎 。而在大多數行業中,由於行業競爭、隱私安全、行政手續複雜等問題,數據常常是以孤島的形式存在的。甚至即使是在同一個公司的不同部門之間實現數據集中整合也面臨著重重阻力。在現實中想要將分散在各地、各個機構的數據進行整合幾乎是不可能的,或者說所需的成本是巨大的。隨著人工智慧的進一步發展,重視數據隱私和安全已經成為了世界性的趨勢。每一次公眾數據的泄露都會引起媒體和公眾的極大關注,例如Facebook的數據泄露事件就引起了大範圍的抗議行動。
同時各國都在加強對數據安全和隱私的保護,歐盟最近引入的新法案《通用數據保護條例》(General Data Protection Regulation, GDPR)表明,對用戶數據隱私和安全管理的日趨嚴格將是世界趨勢。要解決大數據的困境,僅僅靠傳統的方法已經出現瓶頸。兩個公司簡單的交換數據在很多法規包括GDPR框架下是不允許的。用戶是原始數據的擁有者,在用戶沒有批准的情況下,公司間是不能交換數據的。
針對數據孤島和數據隱私的兩難問題,多家機構和學者提出解決辦法。針對手機終端和多方機構數據的隱私問題,谷歌公司和微眾銀行分別提出了不同的“聯邦學習”(Federated Learning)算法框架。谷歌公司提出了基於個人終端設備的“聯邦學習”(Federated Learning)算法框架,而AAAI Fellow 楊強教授與微眾銀行隨後提出了基於“聯邦學習”(Federated Learning)的系統性的通用解決方案,可以解決個人(2C)和公司間(2B)聯合建模的問題。在滿足數據隱私、安全和監管要求的前提下,設計一個機器學習框架,讓人工智慧系統能夠更加高效、準確的共同使用各自的數據。
定義
聯邦機器學習(Federated machine learning/Federated Learning),又名聯邦學習,聯合學習,聯盟學習。聯邦機器學習是一個機器學習框架,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模。
舉例來說,假設有兩個不同的企業 A 和 B,它們擁有不同數據。比如,企業 A 有用戶特徵數據;企業 B 有產品特徵數據和標註數據。這兩個企業按照上述 GDPR 準則是不能粗暴地把雙方數據加以合併的,因為數據的原始提供者,即他們各自的用戶可能不同意這樣做。假設雙方各自建立一個任務模型,每個任務可以是分類或預測,而這些任務也已經在獲得數據時有各自用戶的認可,那現在的問題是如何在 A 和 B 各端建立高質量的模型。由於數據不完整(例如企業 A 缺少標籤數據,企業 B 缺少用戶特徵數據),或者數據不充分 (數據量不足以建立好的模型),那么,在各端的模型有可能無法建立或效果並不理想。聯邦學習是要解決這個問題:它希望做到各個企業的自有數據不出本地,而後聯邦系統可以通過加密機制下的參數交換方式,即在不違反數據隱私法規情況下,建立一個虛擬的共有模型。這個虛擬模型就好像大家把數據聚合在一起建立的最優模型一樣。但是在建立虛擬模型的時候,數據本身不移動,也不泄露隱私和影響數據合規。這樣,建好的模型在各自的區域僅為本地的目標服務。在這樣一個聯邦機制下,各個參與者的身份和地位相同,而聯邦系統幫助大家建立了“共同富裕”的策略。 這就是為什麼這個體系叫做“聯邦學習”。
根據孤島數據的分布特點將聯邦學習分為三類。
數據分布基本可以分為以下三種情況:
兩個數據集的用戶特徵(X1,X2,…)重疊部分較大,而用戶(U1, U2…)重疊部分較小;
兩個數據集的用戶(U1, U2…)重疊部分較大,而用戶特徵(X1,X2,…)重疊部分較小;
兩個數據集的用戶(U1, U2…)與用戶特徵重疊(X1,X2,…)部分都比較小。
為了應對以上三種數據分布情況,我們把聯邦學習分為橫向聯邦學習、縱向聯邦學習與聯邦遷移學習。
相關術語
技術——涉及到的技術及概念
① 機器學習
a. 機器學習
b. 深度學習
c. 遷移學習
d. 分散式機器學習
②分散式存儲
a.kvdb數據存儲;
b. 外部存儲持久化;
d. 記憶體數據存儲
e. 保證數據的可用性、可靠性。
③加密算法
a. 同態加密
b. 秘密共享
c. 遺忘傳輸
d. 混淆電路
e. RSA加密算法
f. 軟體保護擴展
技術成果及開源論文
1.H. Brendan McMahan, Eider Moore, Daniel Ramage, and Blaise Agüera y Arcas. 2016. Federated Learning of DeepNetworks using Model Averaging. CoRR abs/1602.05629 (2016). arXiv:1602.05629
2.Qiang Yang, Yang Liu, Tianjian Chen, Yongxin Tong. "Federated Machine Learning: Concept and Applications". ACM Transactions on Intelligent Systems and Technology (TIST), Volume 10 Issue 2, February 2019.
3.Jakub Konecný, H. Brendan McMahan, Felix X. Yu, Peter Richtárik, Ananda Theertha Suresh, and Dave Bacon. 2016.Federated Learning: Strategies for Improving Communication Efficiency
4. 楊強,劉洋,陳天健,童詠昕, “聯邦學習”。 中國計算機學會通訊, 第14卷,第11期,2018年11月。
5. 楊強, “GDPR對AI的挑戰和基於聯邦遷移學習的對策”,. 中國人工智慧學會通訊,第8卷,第8期2018年8月。
6.Jakub Konecný, H. Brendan McMahan, Daniel Ramage, and Peter Richtárik. 2016. Federated Optimization: DistributedMachine Learning for On-Device Intelligence, CoRR abs/1610.02527 (2016). arXiv:1610.02527
7. Andrew Hard, Kanishka Rao, Rajiv Mathews, Swaroop Ramaswamy, Françoise Beaufays, Sean Augenstein, Hubert Eichner, Chloé Kiddon, Daniel Ramage. "Federated Learning for Mobile Keyboard Prediction". arXiv.org, 2018.11.08
8. Abhishek Bhowmick, John Duchi, Julien Freudiger, Gaurav Kapoor, Ryan Rogers. “Protection Against Reconstruction and Its Applications in Private Federated Learning”. arXiv, 2018.12.03.
9. Florian Hartmann. "Federated Learning for Firefox".github.io, 2018.08.27.
開源框架
(1)聯邦學習FATE (Federated AI Technology Enabler)是微眾銀行AI團隊自主研發的開源聯邦學習框架,為聯邦AI生態提供了一種安全計算框架。
作為一個工業級的聯邦學習框架,聯邦學習能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和建模。FATE提供了一種基於數據隱私保護的安全計算框架,為機器學習、深度學習、遷移學習算法提供強有力的安全計算支持。 安全底層支持同態加密、秘密共享、哈希散列等多種多方安全計算機制,算法層支持多方安全計算模式下的邏輯回歸、Boosting、聯邦遷移學習等。
2019年2月18日,FATE在GitHub正式發布了0.1版本。
(2)谷歌是聯邦學習技術及套用的積極推動者,於2019年2月發布了開源的聯邦學習開源框架TensorFlow Federated。TensorFlow Federated運行於谷歌的開源深度學習框架TensorFlow之上,方便科研人員和套用開發者基於分散式的數據(即數據沒有集中在一起)來訓練全局模型。
標準及規範
為了加速“聯邦學習”的普及與落地,微眾銀行於2018年10月向IEEE標準協會提交關於建立聯邦學習標準的提案——“Guide for Architectural Framework and Application of Federated Machine Learning”(聯邦學習基礎架構與套用標準)。該立項提案已於2018年12月獲批。由微眾銀行主辦的IEEEP3652.1(聯邦學習基礎架構與套用)標準工作組第一次會議在深圳成功召開,此次會議的召開也正式宣告“聯邦學習”走入行業規範。
聯盟學習生態
聯盟學習生態是由微眾銀行AI項目組發起的,旨在開發和推廣數據安全和用戶隱私保護下的AI技術及其套用。通過以下幾點來發展聯邦學習:
(1)推動開源並建立技術聯盟機制
(2)研製和建立國內外的標準和規範
(3)使用區塊鏈等技術建立多方共識機制
(4)鼓勵各方參與並推廣行業垂直領域的套用
作用
聯邦機器學習可以避免非授權的數據擴散和解決數據孤島問題 。
套用
Ocean採用了“聯邦機器學習”。