基於標記樹的XML文檔自動聚類和分類研究

項目摘要

隨著XML套用的日益廣泛，XML文檔的內容和文檔之間的關係結構也日趨複雜。聚類和分類等數據挖掘技術不但可以增強網路中XML文檔的組織性，從而為網路信息資源的蒐集、整理及檢索利用提供良好的技術支持，還可以在海量網路信息中發現XML文檔間隱含的知識，確定XML文檔內部標記的真實語義信息，為本體論和語義網的發展奠定堅實基礎，因此具有重大研究意義。XML文檔是一種結構化文本，其自動聚類和分類與一般的文本聚類分類有著較大差別，通過將XML文檔和DTD轉換為標記樹並計算其相似度，可以找到一種實現XML文檔自動聚類和分類的有效方法。在此過程中要解決的關鍵問題是文檔元素結構信息的衡量及文檔相似度的計算方法。本項目擬綜合運用自動分詞分類、數據挖掘、圖論等多個領域的研究方法，提出一種計算XML文檔元素層次權重和結構權重的算法以比較XML文檔之間的相似度，從而提高XML文檔自動聚類和分類的準確度和效率。

基於標記樹的XML文檔自動聚類和分類研究

基本介紹

相關詞條

熱門詞條