規則與統計相結合的現代漢語虛詞用法自動識別研究

項目摘要

與其它語言相比，漢語虛詞在現代漢語中承擔著尤其重要的語法表現和語義辨析任務。一般地，在句子中用錯一個實詞會造成一個辭彙理解的錯誤，而用錯一個虛詞往往會造成整個句子甚至篇章的理解錯誤。因此，對現代漢語虛詞用法的自動識別研究，將有助於現代漢語精確的機器理解，促進中文信息處理的相關研究。.現代漢語虛詞的研究歷史悠久，成果豐富。但是目前已有的虛詞研究成果大都是面向人用的，很難直接套用於自然語言處理的研究。申請人從計算語言學的觀點出發，根據目前漢語虛詞知識的研究成果以及對《人民日報》中虛詞用法的真實分布信息，著力改進現有的現代漢語虛詞知識庫，通過附加機率信息的虛詞用法規則庫，並利用ME、SVM以及CRF等統計模型，探討規則與統計相結合的現代漢語虛詞用法的自動識別。本項目研究成果可直接套用於機器翻譯、信息檢索、信息抽取、文本情感計算等自然語言處理領域，為中文文本內容的機器理解提供數據基礎和技術支持。

結題摘要

在國家自然科學基金項目“規則與統計相結合的現代漢語虛詞用法自動識別研究”（60970083）的資助下，鄭州大學及北京大學的有關人員，經過多年的合作研究探索，在現代漢語虛詞用法自動識別及相關知識庫構建方面取得了較為豐富的研究成果。具體要點如下：（1）將語言學理論與計算機套用的具體需求相結合，設計並構建了包括現代漢語虛詞用法詞典、現代漢語虛詞用法規則庫以及現代漢語虛詞用法標註語料庫三位一體的現代漢語虛詞用法知識庫，為中文信息處理的相關研究和套用提供數據基礎。（2）研究現代漢語虛詞用法的自動識別技術，設計了現代漢語虛詞用法自動標註系統，實現了規則模型、統計模型以及規則與統計相結合的模型及識別算法，提高了現代漢語虛詞自動識別的準確率。（3）研發虛詞用法知識庫輔助構建工具包、語料庫自動標註工具包及知識庫查詢工具包，降低了知識庫構建的人工投入，提高了質量，推廣套用前景廣闊。（4）發表相關學術文章30餘篇，相關研究成果通過河南省科學技術廳科技成果鑑定，鑑定意見為“國際先進”。培養青年教師及碩士研究生近20名。漢語虛詞在現代漢語中承擔著尤其重要的語法表現和語義辨析任務，現代漢語虛詞用法的自動識別問題研究，是以現代漢語虛詞知識庫為基礎，根據虛詞在真實文本中的具體表現特徵，人工總結其中的規律並進行形式化規則描述，再結合統計方法，對真實文本中漢語虛詞用法進行機器學習，訓練得到合適的語言模型，從而實現虛詞用法的自動識別，對部分常用虛詞用法的自動識別達到了80%以上準確率。本項目研究成果已初步套用於句法分析、情感計算、信息抽取、對外漢語教學等自然語言處理領域，為中文文本內容的機器理解提供了一定數據基礎和技術支持。

規則與統計相結合的現代漢語虛詞用法自動識別研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條