面向大數據的機器學習理論與方法

《面向大數據的機器學習理論與方法》是依託清華大學,由朱小燕擔任項目負責人的重點項目。

基本介紹

  • 中文名:面向大數據的機器學習理論與方法
  • 依託單位:清華大學
  • 項目負責人:朱小燕
  • 項目類別:重點項目
項目摘要,結題摘要,

項目摘要

網際網路發展帶來的海量數據,引領了科技與經濟發展新的趨勢,提出了新的挑戰。大數據具有的噪聲大、結構複雜多樣、變化快等特點,是傳統的觀察-假設-檢驗的科學方法,以及現有基於機率統計的數據驅動理論與方法都難以應對的。亟需發展一套面向數據密集的新計算理論與方法,才能對大數據進行有效的處理,並從中及時發現有用的信息。為探討這樣的理論與方法,本項目申請設定了以下3個研究內容:1、多粒度隱層表示的學習理論與方法,以充分挖掘大數據背後隱含的本質規律與特性;2、大數據環境下自適應學習方法與學習策略,以應對大數據快速多樣的變化;3、建立大規模圖像內容分析與理解套用平台,以驗證基礎理論和方法的有效性。本課題通過理論和套用的結合,旨在發展與創立應對大數據複雜環境的機器學習理論與方法,預期在大數據處理多粒度隱層表示特徵學習、自適應學習等方面取得關鍵技術的突破,實現海量圖像和視頻智慧型處理、信息服務原型系統平台。

結題摘要

本項目針對大數據噪聲大、結構複雜多樣、變化快等特點開展了3個方面的研究: 1、在大數據隱含特徵學習方面,從理論基礎研究和套用基礎研究兩方面開展了研究。在理論方面,提出了線上正則化貝葉斯推理、核正則化貝葉斯、魯棒正則化貝葉斯等基礎理論和方法;發展了高效的分散式貝葉斯推理算法,及其網路連結預測、網路推薦等複雜場景下的學習方法。套用基礎方面,針對大數據中文本與知識的表示學習問題,提出了在神經網路模型中嵌入語言學知識的遞歸自編碼模型、樹型長短期記憶模型、語言學知識正則的長短期記憶模型;在結構化知識表示層面,提出了產生式的知識嵌入模型transG,考慮文本信息的SSP,流型嵌入的ManifoldE。在基於大規模數據語言生成方面,針對生成內容的語義性、一致性、互動性等問題,從類別控制、句式控制、信息量控制、知識利用、邏輯性等方面進行建模,並廣泛套用在文本摘要、對話生成、廣告文案生成、故事生成等任務中。 2、在大數據自適應學習方面,提出了考慮領域監督信息和類別監督信息的自編碼模型。針對弱監督、非直接監督信號的任務,研究了基於強化學習的系列方法,包括數據子結構發現,樣本去噪,樣本標記自糾正,多智慧型體合作式學習。所提出的多智慧型體合作式學習模型用於最佳化淘寶產品搜尋的線上系統,每日穩定增收達到數千萬元。 3、在大規模圖像內容分析與理解方面開展了系列研究。提出了一個高度並行化的面對網路圖片處理的算法框架,用於在分散式計算系統上同時解決部分重複圖像的發現和視覺模式的表示兩個問題。從圖的角度提出了一個適用於大規模數據的挖掘方法,同時建模了實例層面的相似性和圖像層面的上下文關係。建立了億級規模的人臉照片資料庫,及人臉查詢系統,在億級底庫上實現了百級並發查詢的秒級返回,滿足了政府機關的實際需求。

相關詞條

熱門詞條

聯絡我們