可比語料庫質量量化與提升方法研究

項目摘要

鑒於平行語料庫在某些領域和語言對上的稀缺性，可比語料庫近年來受到了研究者的重視並已被成功套用於多種套用任務中。已有的基於可比語料的知識挖掘工作大多關注挖掘算法的最佳化，它們的發展已經遇到瓶頸難以提升。以提升可比語料質量來間接提升挖掘算法的性能是一種符合直觀經驗的思路，但現有工作大多忽視了可比語料的質量差異及其對套用性能的影響。鑒於此，本項目將系統研究可比語料質量的量化、評測、提升方法以及對實際套用的影響。在質量量化上，可比度指標綜合考慮了外在辭彙特徵和內在主題相關性特徵；在可比度性能評測上，我們設計了與真實語料相似且可量化的基準測試語料和性能評測指標；針對可比語料質量提升，項目採用了高效的層次聚類策略和子聚類選擇方法；最後，套用部分通過雙語詞典抽取和跨語言信息檢索任務來檢驗項目整體策略的有效性。本項目對揭示可比語料質量的重要性，對可比度指標的設計、評測以及相關套用性能的提升都有重要價值。

結題摘要

隨著世界各國間交往的日益密切，語言障礙成為了阻礙交流效率的一個重要因素，跨語言自然語言處理技術是解決這一問題的重要技術手段。在跨語言自然語言處理任務中，可比語料庫是近來受到較多關注的一種基礎性資源。網際網路上包含大量的可比語料資源，蒐集和構建成本不高，但可比語料的質量波動可以很大，這對依賴於語料質量進行的自然語言處理任務將帶來顯著影響。鑒於此，本研究項目提出對可比語料的質量進行量化和提升，以此來保證基於可比語料進行的信息抽取具有可靠的質量。本項目的研究內容可以劃分為語料質量量化、質量提升和套用三塊：第一塊主要研究對給定的可比語料質量進行量化描述的方法，第二塊研究提升低質量可比語料的策略，第三塊則通過套用任務來展示上述各方案的有效性。對於可比語料庫質量的量化，項目組提出了融合淺層和深層模型的跨語言文本相似度評價方法，實驗結果表明，這一量化方法具有理想的準確度和可靠性。針對語料質量提升，項目組以前期工作中已有的基於聚類策略進行高質量可比語料提取的基本思想為核心，重點對原技術在海量文本環境下計算效率不高的問題進行了改進，提升了算法的效率。在套用任務上，項目組主要依據信息檢索模型來展示上述相關技術的效率。在此我們提出了一些新穎高效的跨語言知識與信息檢索模型的融合策略。結果表明，從高質量的可比語料庫中抽取出的詞典資源與跨語言信息檢索模型的融合可以顯著提升信息檢索任務的性能。此外，結合研究機構背景，項目組將蒐集的大規模可比語料用於語言監測任務，展示了可比語料服務於語言文字工作的能力。本項目的研究成果對於認識可比語料庫的質量特徵以及指導高質量可比語料庫的構建與套用都具有較大價值。

可比語料庫質量量化與提升方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條