《面向大數據的安全遷移學習方法》是依託清華大學,由龍明盛擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向大數據的安全遷移學習方法
- 依託單位:清華大學
- 項目負責人:龍明盛
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
隨著網際網路的快速發展,信息網路中產生了大量無標記或弱標記數據,這給基於標記數據的有監督機器學習方法帶來了新的挑戰。與此同時,維基百科等語義網路中維護了豐富的標記數據,如何遷移和復用這些標記數據是實現弱監督機器學習的關鍵。遷移學習是一種重要的弱監督機器學習技術,其目標是在異構領域間挖掘不變特徵結構和無偏識別模型,提高機器學習的跨領域泛化性能。近年來各種遷移學習理論和方法發展非常迅速,但在模型安全性和算法可擴展性方面仍存在瓶頸,因而尚不能很好滿足大規模跨領域數據的分析需求。本項目擬研究面向大數據的安全遷移學習方法,重點突破模型安全性和算法可擴展性瓶頸,主要研究內容有:多核分布差異度量方法、低偏差方差分布校正方法、深度網路遷移學習方法、遷移哈希學習方法,以及這些方法的可擴展最佳化算法和分散式系統實現。本項目的研究將有助於推動遷移學習技術的成熟和完善,為非平穩環境下大數據分析挖掘提供堅實的技術支撐。
結題摘要
如何挖掘和檢索非平穩分布的大規模弱標記數據是現代機器學習的前沿方向之一。遷移學習的目標是在非平穩分布的數據領域間挖掘不變特徵和無偏模型,實現標記數據等價值信息的遷移和復用,是解決大數據標記稀缺的基礎性方法。遷移學習的關鍵挑戰是負遷移,即輔助標記數據對目標學習任務產生負面效果,制約其泛化能力。本課題深入剖析負遷移根源,研究安全遷移學習模型和可擴展性最佳化算法。主要研究內容有:結構性分布差異度量、低偏差方差分布匹配、深度網路遷移學習、遷移哈希檢索模型,以及這些方法的並行式算法庫實現。在項目執行期間,主要研究成果包括:基於多核學習和聯合分布核嵌入的分布差異度量方法,基於特徵遷移性、類別選擇性、模型非對稱性的系列深度遷移網路模型,以及大規模跨領域、跨模態、跨時空數據深度遷移與相似檢索模型等。項目執行期間,以第一作者/通訊作者發表/錄用SCI/EI論文30篇,包括TPAMI、TKDE等CCF-A類期刊論文2篇,ICML、NIPS、CVPR、ICCV、KDD、SIGIR、AAAI、IJCAI等CCF-A類會議論文25篇,相關論文Google Scholar引用2200餘次,單篇論文最高引用600餘次,是深度遷移學習領域的開創性工作。授權國家發明專利5項,相關成果在工業圖像識別、智慧型天氣預報與環境監測等領域實現規模化套用,集成了相關技術的新一代氣象大數據平台已部署中央氣象台、31個省級氣象台和6個“一帶一路”國家氣象台,產生了顯著的經濟社會效益和巨大的國際影響力。項目負責人獲2016年中國人工智慧學會優秀博士學位論文獎、2018年教育部高等學校優秀成果獎技術發明一等獎(排名第4)。