《基於可比語料的多語言文本聚類研究》是依託南京理工大學,由章成志擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於可比語料的多語言文本聚類研究
- 項目類別:青年科學基金項目
- 項目負責人:章成志
- 依託單位:南京理工大學
《基於可比語料的多語言文本聚類研究》是依託南京理工大學,由章成志擔任項目負責人的青年科學基金項目。
《基於可比語料的多語言文本聚類研究》是依託南京理工大學,由章成志擔任項目負責人的青年科學基金項目。項目摘要隨著全球一體化進程加快、多語言信息資源激增,針對多語言文本聚類的研究尤為迫切。當前多語言文本聚類方法主要依賴於雙語...
《雙語語料構建與雙語文本聚類研究》以多語言文本為研究對象,進行基於多語言文本的文本挖掘,涉及任務主要分為三塊內容,多語言文本的採集,其中包括了平行語料和可比語料,對多語言語料的評估以及多語言文本的聚類。其中,多語言文本的聚類...
《基於大規模語料庫的漢語詞語自動聚類研究》是依託哈爾濱工業大學,由王曉龍擔任項目負責人的面上項目。項目摘要 本項目以基於大規模語料庫的漢語字、詞的不同元數尤其是三元以上的同現機率統計為基礎,研究有關漢語詞語自動聚類關鍵技術,...
對於可比語料庫質量的量化,項目組提出了融合淺層和深層模型的跨語言文本相似度評價方法,實驗結果表明,這一量化方法具有理想的準確度和可靠性。針對語料質量提升,項目組以前期工作中已有的基於聚類策略進行高質量可比語料提取的基本思想為...
其中以自建國際期刊英語論文語料庫為數據,以布朗家族語料庫以及《紅樓夢》的兩種英語全譯本為實證案例,針對不同譯本進行聚類分析。另外,本研究還深入分析了不同類型文本在各種語言複雜度維度上所體現出的語言風格,指出了存在的不足和...
本體是一種基於語義網技術的知識表示方法,它與可比語料庫的融合式研究是對可比語料獲取、組織和套用方法的一次革新,將更好地發揮可比語料庫的效能並擴展其套用領域。經過前期調查分析,國內外鮮有俄漢可比語料庫相關研究,未見基於本體的...
研究內容主要包括:基於領域平行語料抽取的雙語核心術語抽取研究、基於多層特徵的一體化策略術語抽取研究、基於術語度約束的雙語術語對齊研究、基於術語聚類的概念層次體系生成研究、基於多語文本聚類的主題層次體系生成研究。