針對數據孤島和數據隱私的兩難問題,多家機構和學者提出解決辦法。聯邦學習的技術理論基礎可以追溯到分散式資料庫(Distributed Database)關聯規則挖掘技術,1996年,Cheung等人首次提出在分散式資料庫中實現關聯規則(Association Rules)挖掘。2006年,Yu等人提出了在橫向和縱向分割的數據上,實現帶有隱私保護的分散式支持向量機建模。2012年,王爽教授團隊首次提出分散式隱私保護下的線上機器學習等概念,並首次解決醫療線上安全聯邦學習問題,該框架服務於多個國家級醫療健康網路,也是聯邦學習系統構架層面的突破。針對手機終端和多方機構數據的隱私問題,谷歌公司和微眾銀行分別提出了不同的“聯邦學習”(Federated Learning)算法框架。谷歌公司提出了基於個人終端設備的“聯邦學習”(Federated Learning)算法框架,而AAAI Fellow 楊強教授與微眾銀行隨後提出了基於“聯邦學習”(Federated Learning)的系統性的通用解決方案,可以解決個人(2C)和公司間(2B)聯合建模的問題。在滿足數據隱私、安全和監管要求的前提下,設計一個機器學習框架,讓人工智慧系統能夠更加高效、準確的共同使用各自的數據。2020年,李曉林教授首創知識聯邦理論體系。2021年3月,IEEE正式發布聯邦學習首個國際標準《IEEE 3652.1-2020 - IEEE Guide for Architectural Framework and Application of Federated Machine Learning》。
舉例說明
舉例來說,假設有兩個不同的企業 A 和 B,它們擁有不同數據。比如,企業 A 有用戶特徵數據;企業 B 有產品特徵數據和標註數據。這兩個企業按照上述 GDPR 準則是不能粗暴地把雙方數據加以合併的,因為數據的原始提供者,即他們各自的用戶可能不同意這樣做。假設雙方各自建立一個任務模型,每個任務可以是分類或預測,而這些任務也已經在獲得數據時有各自用戶的認可,那問題是如何在 A 和 B 各端建立高質量的模型。由於數據不完整(例如企業 A 缺少標籤數據,企業 B 缺少用戶特徵數據),或者數據不充分 (數據量不足以建立好的模型),那么,在各端的模型有可能無法建立或效果並不理想。聯邦學習是要解決這個問題:它希望做到各個企業的自有數據不出本地,而後聯邦系統可以通過加密機制下的參數交換方式,即在不違反數據隱私法規情況下,建立一個虛擬的共有模型。這個虛擬模型就好像大家把數據聚合在一起建立的最優模型一樣。但是在建立虛擬模型的時候,數據本身不移動,也不泄露隱私和影響數據合規。這樣,建好的模型在各自的區域僅為本地的目標服務。在這樣一個聯邦機制下,各個參與者的身份和地位相同,而聯邦系統幫助大家建立了“共同富裕”的策略。 這就是為什麼這個體系叫做“聯邦學習”。
2012年,王爽教授團隊提交並於2013年發表在SCI學術期刊Journal of Biomedical Informatics的《Expectation Propagation Logistic Regression (EXPLORER): Distributed privacy-preserving online model learning》論文,這是目前有據可查的全球第一篇醫療線上安全聯邦學習文獻,論文提出了數據“可用不可見”問題,在不需要分享原始個體數據的情況下,利用多個數據源進行帶有隱私保護的聯合建模的概念。同年,該團隊發表了開源聯邦學習框架“WebGLORE: a web service for Grid Logistic Regression”(9),該底層技術服務於多個醫療網路數據的聯邦建模需求。
2019年2月,微眾銀行AI團隊對外發布自主研發的聯邦學習開源項目FATE(Federated AI Technology Enabler)。FATE提供了一種帶有數據隱私保護功能的分散式安全計算框架,為機器學習、遷移學習算法提供隱私計算支持。同時,FATE提供了一套跨域互動信息管理方案,提供聯邦學習信息安全審計功能。
1.H. Brendan McMahan, Eider Moore, Daniel Ramage, and Blaise Agüera y Arcas. 2016. Federated Learning of DeepNetworks using Model Averaging. CoRR abs/1602.05629 (2016). arXiv:1602.05629
2.Qiang Yang, Yang Liu, Tianjian Chen, Yongxin Tong. "Federated Machine Learning: Concept and Applications". ACM Transactions on Intelligent Systems and Technology (TIST), Volume 10 Issue 2, February 2019.
3.Jakub Konecný, H. Brendan McMahan, Felix X. Yu, Peter Richtárik, Ananda Theertha Suresh, and Dave Bacon. 2016.Federated Learning: Strategies for Improving Communication Efficiency
6.Jakub Konecný, H. Brendan McMahan, Daniel Ramage, and Peter Richtárik. 2016. Federated Optimization: DistributedMachine Learning for On-Device Intelligence, CoRR abs/1610.02527 (2016). arXiv:1610.02527
7. Andrew Hard, Kanishka Rao, Rajiv Mathews, Swaroop Ramaswamy, Françoise Beaufays, Sean Augenstein, Hubert Eichner, Chloé Kiddon, Daniel Ramage. "Federated Learning for Mobile Keyboard Prediction". arXiv.org, 2018.11.08
8. Abhishek Bhowmick, John Duchi, Julien Freudiger, Gaurav Kapoor, Ryan Rogers. “Protection Against Reconstruction and Its Applications in Private Federated Learning”. arXiv, 2018.12.03.
9. Florian Hartmann. "Federated Learning for Firefox".github.io, 2018.08.27.
開源框架
(1)聯邦學習FATE (Federated AI Technology Enabler)是微眾銀行AI團隊自主研發的開源聯邦學習框架,為聯邦AI生態提供了一種安全計算框架。
為了加速“聯邦學習”的普及與落地,微眾銀行於2018年10月向IEEE標準協會提交關於建立聯邦學習標準的提案——“Guide for Architectural Framework and Application of Federated Machine Learning”(聯邦學習基礎架構與套用標準)。該立項提案已於2018年12月獲批。由微眾銀行主辦的IEEEP3652.1(聯邦學習基礎架構與套用)標準工作組第一次會議在深圳成功召開,此次會議的召開也正式宣告“聯邦學習”走入行業規範。