網路信息自主整合關鍵技術研究

《網路信息自主整合關鍵技術研究》是依託哈爾濱工業大學,由陳清財擔任項目負責人的面上項目。

基本介紹

  • 中文名:網路信息自主整合關鍵技術研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:面上項目
  • 項目負責人:陳清財
項目摘要,結題摘要,

項目摘要

隨著網路信息的迅速膨脹,準確性、個性化成為新一代搜尋引擎的重要目標。雖然分類搜尋能夠比通用搜尋獲得更高的準確性,但受限於分類搜尋構建需要過多人工干預,構建成本高、類別體系難以靈活設定,領域覆蓋率也較低,難以滿足用戶多樣化的分類系、較高的檢索召回率等需求。為此,項目提出了網路信息的自主整合方法,首先通過對用戶個性化分類體系的描述,藉助網際網路來自主構建每個類別的標準語料庫,解決信息源查找與驗證等關鍵問題,改進現有特徵選擇與半監督學習方法,完成分類器的自動訓練,並將所得到的分類器用於網路信息的自動分類整合。通過網路信息自主整合,不僅能夠降低專業搜尋引擎的構建成本,提高分類體系設定的靈活性,同時更能用於完成對現有通用搜尋引擎的海量信息進行分類整理,提高其檢索精度。項目的實施為解決當前信息檢索系統所面臨的關鍵問題做出有益探索,並為本體構建、語義計算、文本聚類與分類等領域的研究與套用起到積極促進作用。

結題摘要

當前文本分類套用受限於分類搜尋構建需要過多人工干預,構建成本高、類別體系難以靈活設定,領域覆蓋率也較低,難以滿足用戶多樣化的分類系、較高的檢索召回率等需求,為此,提出了本項目。 我們的主要研究內容包括4部分:1.基於Web的分類語料庫自動構建與分類方法研究。首先研究了基於網頁結構的文本分類語料庫自動構建方法。該方法利用豐富的網路資源,藉助網頁結構、內容和連結關係,並基於聚類的無監督標準語料庫過濾。實驗表明基該方法能夠達到73.73%的準確率;同時,我們分別對有監督文本宏特徵抽取方法、文本宏特徵融合方法、基於排序學習的質心向量的文本分類方法開展了研究,並提出了一個基於排序學習的質心向量的分類方法統一框架,在這個框架下將分類問題轉化為排序問題,使基於質心的方法在性能上都較傳統方法有了較大提升。2.基於微博的網路信息自主整合關鍵技術研究。項目組研究了通過微博來構建大規模生成式短文本文摘資料庫,所構建的百萬級短文本文摘語料庫LCSTS已經有國內外12家著名研究機構的研究人員申請使用。除了自動語料庫的構建,我們還先後研究了基於LSTM的短文本摘要生成方法、多層次特徵融合的短文本匹配方法、微部落格中的知識條目自動發現方法以及基於微部落格中的知識條目發現方法以及基於微博的知識詞條推薦算法。為大規模短文本信息的整合與利用提供了有益探索。3.基於深度學習的大規模文本處理技術研究。結合課題組前期的研究工作,我們探索了基於動名分離的詞向量表示學習方法、基於CNN的短文本語義匹配方法,以及基於所構建的大規模短文本文摘庫,探索了基於LSTM的短文本摘要生成方法。這些成果已經成功發表並吸引了國內外自然語言處理學者的廣泛關注。4.醫療文本處理技術研究。我們和項目合作方在醫療文本處理領域開展了一系列研究並取得了良好成果,包括在2014年度國際i2b2醫療文本評測的臨床醫療(無結構)文本的心臟病風險因子實體的自動抽取方法中獲得國際第2、國內第1的成果,在醫療實體抽取研究上,我們在參加的國際評測BioCreative V CDR Task中取得了第一名。並基於已有研究成果,構建了一個基於網際網路醫學信息和醫院病歷信息相結合的醫療檢索系統。綜上,本課按照項目計畫的研究方向和內容開展了較為深入的研究工作,共發表了重要國際期刊和會議在內的論文23篇;培養了博士生3人,碩士14人,申請了發明專利3項;項目按計畫完成

相關詞條

熱門詞條

聯絡我們