異構“非網頁”資源的組織與融合方法研究

《異構“非網頁”資源的組織與融合方法研究》是依託北京師範大學,由陳翀擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:異構“非網頁”資源的組織與融合方法研究
  • 依託單位:北京師範大學
  • 項目負責人:陳翀
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

非網頁資源是網際網路用戶關注的重要信息,數量巨大內容豐富,常由多種媒體類型成員構成。它不像網頁以文本為主,沒有URL標識,也不易自動分類挖掘,因此對這類資源自動組織、融合等方法的研究遠不及網頁。其原始組織方式有層次式目錄樹(如FTP、P2P檔案系統)和扁平式標籤(如優酷等網站發布平台)。目前用標籤聚類形成分類體系試圖改善標註散亂狀態並保持大眾習慣的做法,忽略了目錄組織方式在層次性和大眾性上的參考價值。.本課題研究目的是用目錄反映的組織規律指導基於標籤自動構建具有自適應性的層次分類體系,探討異構組織體系中資源的融合和有序化方法。研究內容有:(1)統計挖掘大眾以層次方式組織資源時的共性規律;(2)用上述規律改進標籤聚類形成的層次分類體系T的合理性,使其具有自適應性;(3)異構組織體系融合方法的研究,找到將散布的資源合併到T的方法,便於用戶以統一的方式瀏覽訪問;(4)評估T對資源集合的覆蓋能力。

結題摘要

面對網上種類繁多、使用廣泛的“非網頁”數字資源(以下簡稱資源),其組織體系無論採用何種方式都應符合用戶認知習慣、便於查找。本課題的研究分為兩部分主要內容:第一,發掘大眾在資源組織上的特徵;第二,針對典型類別的異構資源,研究有效的組織融合模式與實現方法。我們的目標是:形成契合用戶認知、符合資源特點、有良好導航效率的組織模式,便於用戶利用;且具有自動適應性,能滿足不斷發展的資源規模。本課題沿著數據收集->用戶組織行為->自動組織方法->效果評價四個步驟展開研究,具體內容包括:(1)研究大眾在使用層次目錄方式組織資源時的一般規律和特徵;(2)研究基於標籤的扁平組織結構自動層次化的算法,使所形成的層次組織結構更貼近用戶習慣,並具有較高導航效率;(3)研究對於層次標籤的主題建模,用機器學習方法自動發現主題、主題的上下位關係,通過自動賦予標籤,形成層次組織體系的自適應性。提出一種把不帶標籤的數據中的主題融合到已有的主題結構中的方法;(4)設計評價指標,對層次組織體系的節點語義、結構平衡性等方面進行評價;(5)研究典型資源的組織融合新方法,重點對文獻類資源,以要點發現為基礎,按要點線索組織資源,並在這一組織模式下實現檢索服務的原型系統。

相關詞條

熱門詞條

聯絡我們