圖書層次主題自動標引研究

圖書層次主題自動標引研究

《圖書層次主題自動標引研究》是依託華中師範大學,由陳靜擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:圖書層次主題自動標引研究
  • 項目類別:青年科學基金項目
  • 項目負責人:陳靜
  • 依託單位:華中師範大學
項目摘要,結題摘要,

項目摘要

隨著電子圖書信息資源的迅速增長,圖書主題自動標引的粗粒度現狀與信息用戶需求的精細化趨勢之間的矛盾日趨嚴重,進行圖書層次主題自動標引是解決這一矛盾的有效方法。本項目在理論梳理與需求分析基礎上,著力於構建圖書層次主題自動標引模型及其方法體系,首先,設計圖書目次識別算法,該算法融合機器學習及語義分析,從圖書中提取目次特徵與標記規則,接著,研製圖書層次主題結構劃分方法,利用目次識別和模糊檢索劃分出圖書主題粗結構,利用層次主題模型和聚類分析,對圖書主題粗結構劃分得到的最小邏輯單元進行層次主題結構劃分及主題標引,然後,通過基於機率主題模型的主題信息抽取方法,抽出圖書主題粗結構中各邏輯單元的主題信息,實現圖書層次主題自動標引,以細化圖書信息研究粒度,拓展圖書信息組織研究內容,推進圖書信息資源管理與套用發展。

結題摘要

隨著電子圖書信息資源的迅速增長,圖書主題自動標引的粗粒度現狀與信息用戶需求的精細化趨勢之間的矛盾日趨嚴重,進行圖書層次主題自動標引是解決這一矛盾的有效方法。 本項目主要研究內容為:釐清圖書層次主題自動標引的理論基礎與套用需求;在構建圖書目次識別模型的基礎上,首先對基於目次的圖書主題粗結構劃分研究,然後進行基於層次主題模型的文本層次主題結構劃分,接著,研究了圖書層次主題信息抽取模型,以生成文檔層次主題樹。在模型研究的基礎上,設計與開發圖書層次主題自動標引原型系統,並通過實證對理論模型和方法進行驗證與最佳化。 研究結果包括:探討了圖書層次主題自動標引項目研究所需的各學科基礎知識及理論,, 並分析了主題挖掘的研究熱點與前沿;構建了圖書層次主題自動標引語料庫,為圖書主題研究及用戶細粒度閱讀研究提供語料素材;開發了中文圖書目次自動解析系統CBTOC Hierarchier及圖書層次主題自動分析系統THC-DAT;實證了THC-DAT系統的可行性與優越性,更從客觀衡量的角度探討了用戶細粒度閱讀的用戶認知負荷、認知模式等,不僅從實證上解決了圖書主題自動標引的粗粒度現狀與信息用戶需求的精細化趨勢之間的矛盾,同時,為圖書用戶細粒度閱讀和檢索研究提供了新的視角——認知視角。

相關詞條

熱門詞條

聯絡我們