WEB搜尋與挖掘的新理論與方法

《WEB搜尋與挖掘的新理論與方法》是依託北京大學,由李曉明擔任負責人的重點項目。

基本介紹

  • 中文名:WEB搜尋與挖掘的新理論與方法
  • 項目負責人:李曉明
  • 項目類別:重點項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

瞄準Web 3.0的智慧型搜尋引擎,深入研究Web搜尋與挖掘的新理論和方法:(1)研究Web的性質與演化規律,探索Web信息的基本特徵,提出Web信息蒐集的新模式和方法;(2)研究Web信息的語義表示與推理,探索異構Web信息關聯、集成與重構的邏輯基礎,提出Web異構信息的語義模型;(3)研究Web數據的挖掘與組織,從結構、內容和用戶行為諸方面探索Web信息的模式,針對Web信息的異構性和時態性,建立支持高效訪問的數據組織方式;(4)針對Web信息海量性的特點,研究分布並行挖掘理論與方法,為潛在的實際套用提供高性能算法和支持環境;(5)研究圖像視頻的語義自動標註,綜合利用概念語義與關聯信息,提高對Web圖像視頻理解的能力,提出Web多模態檢索的新方法。 在上述理論研究成果的基礎上,研製Web智慧型搜尋引擎原型系統,驗證本項目研究中提出的新理論和新方法。

結題摘要

能夠從海量Web信息中挖掘出有用的知識,不僅有學術上的重要意義(證明我們對Web信息的形式、結構、時態等有深刻的理解),而且還有潛在巨大的社會經濟價值。其研究難點在於Web信息的多樣性、隨機性、隨意性、非結構化,而搜尋與挖掘的套用常常追求的是相對比較具體明確的結果,從而使得發現一般且有用的規律十分困難。基於深度學習技術,利用雲計算環境,結合眾包機制,是Web搜尋與挖掘理論與方法發展的一個新趨勢。本項目主要成果包括以下五個方面。1.提出了一種對微博和線上短評論進行局部化主題建模方法。該方法以局部文檔為單位代替以詞為單位打標籤的方法,同時引入了背景信息消除辭彙噪音,對微博商品評論的情感分析效果很好,論文被Google引用170次。2.提出利用多種特徵關聯信息的融合和動態互動構建對象之間的相似關係和時序關係,設計多種數據對象模型,索引檢索Web數據對象,能有效支持熱點探測、分類、檢索等Web套用,論文發表在SIGMOD、SIGIR、AAAI、ICDE等CCF A類國際會議,被Google引用50次。3. 提出了一種演進式新聞文檔摘要的生成方法,在摘要疊代過程中綜合考慮了全局信息和局部信息,在純文本摘要,文本和圖像混合摘要,詩詞生成等方面效果很好。在SIGIR、IJCAI、JCDL(最佳學生論文提名)、CIKM上發表了長文,博士生嚴睿獲得了2012北京大學五四獎章。4.提出了基於一致性正則化的多源跨領域遷移學習框架,能利用源領域上的局部數據,而且考慮了子分類器在目標領域上的預測的一致性。還提出挖掘領域間共性與特性的協同PLSA模型,從生成模型角度解決了從多領域間挖掘共享概念的學習問題,上述工作在IEEETKDE發表兩篇論文,Google他引70次,莊福振博士獲得2013年人工智慧學會優秀博士論文。5.開發了“天網搜尋-中國事件檢索與發現”系統。該系統整合了1000多萬篇網頁、文本、視頻、微博數據,體現了多源大跨度建模等多項技術。同時也開發了Web數據並行挖掘雲服務平台,提供從數據採集到數據預處理再到文本挖掘的一站式服務,並推廣到並推廣到電信、信息安全等領域。

相關詞條

熱門詞條

聯絡我們