《無指導漢語文本挖掘的統計模型和統計推斷》是依託清華大學,由鄧柯擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:無指導漢語文本挖掘的統計模型和統計推斷
- 依託單位:清華大學
- 項目負責人:鄧柯
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
近年來,大規模數位化漢語文本可以方便地收集到。對這些文本的自動處理和信息提取有迫切需求。長期以來,漢語文本挖掘的理論和方法研究主要在計算機科學領域展開,已取得諸多成果。但是,現有方法大都是有指導的方法,需要使用 “語料庫” 作為訓練數據。但在許多實際問題中,獲取有代表性的“語料庫”非常困難。另外,現有方法大都將分詞、未登入詞識別和命名實體分類等關鍵問題分開處理。但這些問題實際上是相互纏繞,互為因果的。將它們整合在一起聯合處理是解決問題的最佳途徑。但現有文本分析技術大都無法實現這一點。本項目提出了一種基於統計模型和統計推斷來分析漢語文本的新方法。該方法將漢語文本挖掘的幾大關鍵問題納入一個系統的統計模型下做整體處理,克服了已有方法的重大缺陷。新方法有很強的自主學習能力,可以在沒有訓練數據和語法規則指導的情況下,運用統計學原理自主發現文本的用詞和語法規律,並利用這些規律完成文本分析任務。
結題摘要
近年來,大規模數位化漢語文本可以方便地收集到。對這些文本的自動處理和信息提取有迫切需求。長期以來,漢語文本挖掘的理論和方法研究主要在計算機科學領域展開,已取得諸多成果。但是,現有方法大都是有指導的方法,需要使用 “語料庫” 作為訓練數據。但在許多實際問題中,獲取有代表性的“語料庫”非常困難。另外,現有方法大都將分詞、未登入詞識別和命名實體分類等關鍵問題分開處理。但這些問題實際上是相互纏繞,互為因果的。將它們整合在一起聯合處理是解決問題的最佳途徑。但現有文本分析技術大都無法實現這一點。 本項目提出了一種基於統計模型和統計推斷來分析漢語文本的新方法。該方法將漢語文本挖掘的幾大關鍵問題納入一個系統的統計模型下做整體處理,克服了已有方法的重大缺陷。新方法有很強的自主學習能力,可以在沒有訓練數據和語法規則指導的情況下,運用統計學原理自主發現文本的用詞和語法規律,並利用這些規律完成文本分析任務。本項目的研究給出實現該方法的數理模型和相關理論,編寫了高效率的程式,並申請了國家發明專利。 相關方法在醫療文本、古代文獻、政務文本分析等方面的套用中,展示出了極大的套用價值。對提升我國在大數據時代的文本處理和信息分析能力有著潛在的戰略意義。