基於時間感知模型的學術主題檢索與演化挖掘研究

基於時間感知模型的學術主題檢索與演化挖掘研究

《基於時間感知模型的學術主題檢索與演化挖掘研究》是依託南京大學,由沈思擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於時間感知模型的學術主題檢索與演化挖掘研究
  • 項目類別:青年科學基金項目
  • 項目負責人:沈思
  • 依託單位:南京大學
項目摘要,結題摘要,

項目摘要

當前科研人員難以通過學術搜尋直接實現對重要研究成果的時間點判定、演化趨勢相似的學術主題發現、某一研究工作的科研階段判斷等。對於查詢問題結構模糊、知識範圍不清晰、需要動態解構和探究大量文獻內容才能部分滿足的“弱信息”需求這一情況更是難以解決。本課題著眼於時間維度的學術研究資源,基於時間感知模型展開面向不同研究領域、不同數據來源,對文本內容隱含的時間知識進行檢索與挖掘研究。主要通過學術主題中時間特徵的抽取和標記、檢索過程中時間相關性的計算和排序最佳化、多源數據的學術主題時間關聯性分析等工作,探索學術主題相關的文本內容中時間信息在快速檢索和分析 “更高層次所需要”的宏知識過程中的作用。本研究所提出的技術和方法以及構建的文本時間辭彙語義框架,能幫助科研人員通過檢索途徑更快、更準確地獲取學術主題可能的趨勢、發展方向和演化路徑。

結題摘要

基於時態語義的Web信息檢索在動態時間信息挖掘、群體記憶、時間問答系統等檢索情景中具有相對廣泛的套用。在大數據和人工智慧迅猛發展的這一大趨勢下,對基於時態語義的Web信息檢索從關鍵技術的角度進行系統而全面的綜述不僅有利於了解該領域的研究整體狀況而且有益於把握時態檢索的未來發展趨勢。在上述這一大的背景下,在對時態語義Web信息檢索中所涉及到關鍵技術的系統總結、隱含時間意圖類別的確定、文獻隱含時間信息的挖掘過程和基於標籤主題模型的實驗驗證等方面上進行了相應的探究。具體究內容、重要結果、關鍵數據及其科學意義如下: 首先,按照信息檢索順序步驟中各環節所用到的技術與方法,展開對整個時態語義檢索的綜述。在綜述與時間相關的研究過程中,以技術為主線貫穿整個綜述的研究始末,突出各種模型和算法在與時間相關的問題上的套用。 其次,通過自然語言處理手段,獲取文獻的時間信息,用以將文獻檢索潛在時間意圖映射至具體時間類別。征最佳化Labeled LDA分類模型的標籤選擇過程。將所提算法與其他多標籤分類算法進行對比實驗,分析和評估文獻檢索潛在時間意圖自動分類的準確率。結果表明,所提算法的AUC的值達到79.6%,較同類baseline算法ECC(Ensembles of Classifler Chains)提高約10.9%。 再次,歸納總結了學術文獻常用時間詞,並基於圖書情報學題錄信息完成文本時間詞抽取。在此基礎上利用標籤主題模型labeled-LDA實現文本隱含時間標籤的生成,以及基於時間維度的文本語義相似度計算。實驗結果表明,本研究能較好地生成文獻隱含時間信息,也能更有效地幫助用戶提高弱信息檢索結果的相關性。 最後,獲取200-2009年的Nature,Science和Cell期刊上所有學術論文接受周期數據的基礎上,整體分析了論文均接受周期、論文篇均被引的分布情況,並且從整體上揭示出了論文接受周期和論文的引用次數兩者之間存在的規律,即如果論文接受周期短則論文引用次數高,論文接受周期長則論文引用次數低。

相關詞條

熱門詞條

聯絡我們