基於可比語料的多語言文本聚類研究

基於可比語料的多語言文本聚類研究

《基於可比語料的多語言文本聚類研究》是依託南京理工大學,由章成志擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於可比語料的多語言文本聚類研究
  • 項目類別:青年科學基金項目
  • 項目負責人:章成志
  • 依託單位:南京理工大學
項目摘要,結題摘要,

項目摘要

隨著全球一體化進程加快、多語言信息資源激增,針對多語言文本聚類的研究尤為迫切。當前多語言文本聚類方法主要依賴於雙語詞典、多語主題詞表或平行語料,由於這些資源獲取成本高、常與聚類文本所屬領域不兼容,限制了多語言文本聚類的發展,需要探索有效的多語言文本聚類方法。鑒於可比語料易獲取、易與領域兼容,且多語言相似詞在可比語料上有相似語境分布,本項目將可比語料用於多語言文本聚類,擬以申請者已開發的主題聚類原型系統為基礎,進行如下三方面研究:1.結合短語分析和機器學習,提取多語言文本主題;2.生成可比語料,用可比語料計算跨語言文本主題間相似度,進而計算跨語言文本間相似度;3.在上述基礎上,以平行語料為約束實現多語言文本聚類。本項目難點是緊扣多語言文本聚類需求,有效解決以上問題,核心問題是基於可比語料的跨語言語言文本主題間相似度計算。本項目旨在探尋提高多語言文本聚類性能的方法,有效解決多語言文本聚類問題。

結題摘要

隨著全球一體化進程加快、多語言信息資源激增,針對多語言文本聚類的研究尤為迫切。當前多語言文本聚類方法主要依賴於雙語詞典、多語主題詞表或平行語料,由於這些資源獲取成本高、常與聚類文本所屬領域不兼容,限制了多語言文本聚類的發展,需要探索有效的多語言文本聚類方法。鑒於可比語料易獲取、易與領域兼容,且多語言相似詞在可比語料上有相似語境分布,本項目將可比語料用於多語言文本聚類,以申請者已開發的主題聚類原型系統為基礎,進行如下幾個方面的研究。 1. 結合短語分析和機器學習,提取多語言文本主題; 2. 生成可比語料,用可比語料計算跨語言文本主題間相似度,進而計算跨語言文本間相似度; 3. 在上述基礎上,以平行語料為約束實現多語言文本聚類。

相關詞條

熱門詞條

聯絡我們