基於CSSCI的句法級漢英平行語料庫構建及知識挖掘研究

《基於CSSCI的句法級漢英平行語料庫構建及知識挖掘研究》是王東波為項目負責人,南京農業大學為依託單位的青年科學基金項目。

基本介紹

  • 中文名:基於CSSCI的句法級漢英平行語料庫構建及知識挖掘研究
  • 項目類別:青年科學基金項目
  • 項目負責人:王東波
  • 依託單位:南京農業大學
項目摘要,結題摘要,

項目摘要

針對目前漢英平行語料標註不深入的現狀,本課題基於漢英句法功能知識庫和句法功能匹配算法,構建人文社會科學句法級漢英平行語料庫,並基於該語料庫進行術語和類別知識挖掘的探究。本課題的主要研究內容:基於CSSCI關鍵字的詞性分布傾向性計算漢英關鍵字的詞性;在清華漢語樹庫和賓州英語樹庫的基礎上,構建漢英句法功能知識庫;通過漢英句法樹的生成、消歧、最佳化和錯誤恢復,構建自動句法分析器;開發句法樹輔助校正工具,並完成對漢英句法樹的校正;基於句法結構的分布,挖掘術語和類別知識。本課題不僅有助於句法功能匹配理念、句法樹構建理論、語言學理論的豐富、建立和研究,而且對知識服務、跨語言檢索、語義網和本體、機器翻譯等研究具有直接的促進作用。

結題摘要

在非結構化文本挖掘的大趨勢下,圍繞著句法級漢英平行語料庫的構建,本項目主要完成了語料的獲取及漢英平行語料庫的構建、語料標註模型的開發、句法分析器的設計和基於深層次標註語料的套用探究等四個方面的研究。首先,基於CSSCI、CNKI、維普和萬方,開發了語料抓取工具並構建了漢英平行語料庫。其次,基於條件隨機場,開發了漢語多特徵自動分詞模型、漢英一體化詞性標註模型,前者漢語的最高調和平均值達到了97.23%,後者漢英的最高調和平均值達到了90.34%。再次,在完成短語句法結構調整的基礎上,本項目構建了辭彙和短語的句法功能資料庫、開發了句法功能標註和短語結構邊界識別的模型。在上述已有數據資源的基礎上,開發了面向人文社會科學漢英語料的句法分析器。最後,在句法標註的漢英語料上,本項目揭示了辭彙分布的洛特卡現象、基於句法層面的知識完成了對漢英對照術語和類別知識的抽取與挖掘。本研究一方面有助於信息檢索、機器翻譯和輔助機器翻譯等研究的開展另一方面有益於語言學理論和信息計量學的拓展。針對上述具體的探究,本項目撰寫並發表了SSCI和CSSCI檢索的學術論文7篇,出版專著一部並獲得省部級獎項一項。

相關詞條

熱門詞條

聯絡我們