基於可比語料的多語言文本聚類研究

項目摘要

隨著全球一體化進程加快、多語言信息資源激增，針對多語言文本聚類的研究尤為迫切。當前多語言文本聚類方法主要依賴於雙語詞典、多語主題詞表或平行語料，由於這些資源獲取成本高、常與聚類文本所屬領域不兼容，限制了多語言文本聚類的發展，需要探索有效的多語言文本聚類方法。鑒於可比語料易獲取、易與領域兼容，且多語言相似詞在可比語料上有相似語境分布，本項目將可比語料用於多語言文本聚類，擬以申請者已開發的主題聚類原型系統為基礎，進行如下三方面研究：1.結合短語分析和機器學習，提取多語言文本主題；2.生成可比語料，用可比語料計算跨語言文本主題間相似度，進而計算跨語言文本間相似度；3.在上述基礎上，以平行語料為約束實現多語言文本聚類。本項目難點是緊扣多語言文本聚類需求，有效解決以上問題，核心問題是基於可比語料的跨語言語言文本主題間相似度計算。本項目旨在探尋提高多語言文本聚類性能的方法，有效解決多語言文本聚類問題。

結題摘要

隨著全球一體化進程加快、多語言信息資源激增，針對多語言文本聚類的研究尤為迫切。當前多語言文本聚類方法主要依賴於雙語詞典、多語主題詞表或平行語料，由於這些資源獲取成本高、常與聚類文本所屬領域不兼容，限制了多語言文本聚類的發展，需要探索有效的多語言文本聚類方法。鑒於可比語料易獲取、易與領域兼容，且多語言相似詞在可比語料上有相似語境分布，本項目將可比語料用於多語言文本聚類，以申請者已開發的主題聚類原型系統為基礎，進行如下幾個方面的研究。 1. 結合短語分析和機器學習，提取多語言文本主題； 2. 生成可比語料，用可比語料計算跨語言文本主題間相似度，進而計算跨語言文本間相似度； 3. 在上述基礎上，以平行語料為約束實現多語言文本聚類。

基於可比語料的多語言文本聚類研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條