傣語文本分析與語音合成研究

傣語文本分析與語音合成研究

《傣語文本分析與語音合成研究》是依託雲南大學,由楊鑒擔任負責人的國家自然科學基金專項基金項目。

基本介紹

  • 中文名:傣語文本分析與語音合成研究
  • 負責人:楊鑒
  • 依託單位:雲南大學
  • 項目類型:專項基金項目
項目摘要,結題摘要,

項目摘要

隨著語音合成自然度的提高,採用語音合成技術的產品,已得到了廣泛套用。在國內,漢語國語語音合成技術已實現產品化,藏語、維吾爾語等少數民族語的語音合成技術已處於產品化階段,然而,雲南少數民族語的語音合成研究還未得到應有的重視,傣語語音合成研究目前還無人問津。本項目以開發傣語文語轉換套用系統為目的,設計並構建傣語語音合成語料庫;針對傣語的特徵,研究合成基元的選取方法,為HMM聲學模型設計用於決策樹聚類的上下文屬性和問題集,最佳化語音合成器的訓練流程;研究傣語的韻律標註規則、詞性標記方法;構建傣語詞典,研究傣語句子的預處理方法、分詞方法,以及韻律短語預測方法,構建文本分析系統;針對現代傣語中普遍使用漢語借詞、英語辭彙的現象,研究傣語中外來詞的文語轉換問題;開發傣語文語轉換實時演示系統。本項目將有力促進我國少數民族語言的語音合成研究,並推動語音技術在邊疆民族地區的廣泛套用。

結題摘要

本項目以開發傣語文語轉換套用系統為目的,研究傣語文本語料庫、原始語音資料庫、分詞、歸一化、韻律短語邊界預測、漢語借詞發音規則、聲學模型訓練以及提高語音合成自然度的方法。本項目已構建完成包括1.2萬餘條語句的傣語文本語料庫,以及包括1.7萬詞條的傣語電子詞典。已構建完成包括2400條語句、到達播音級的傣語原始語音資料庫,並已對語音數據進行了必要的音段切分和韻律標記。傣語是拼音文字,用傣語專用的文字書寫,西雙版納傣語傳統上稱為傣仂語。在傣語專家的支持下,本項目系統歸納了傣語字音轉換規則,並編程實現了傣語文本的自動羅馬化。項目系統地研究了傣語文本中的數字歸一化和特殊字元歸一化問題。採用基於規則和上下文關鍵字相結合的方法識別非標準詞、判斷歧義類型,然後確定其正確的傣文讀音。隨著漢傣文化不斷交融,現代傣語中吸收了大量的漢語借詞,採用意譯法或音譯法將其轉化為傣語。由於漢語借詞的音譯形式不屬於標準傣語文字,其實際讀音與拼寫有明顯區別。本項目在深入研究的基礎上,提出了可行的漢語借詞語音合成方法。分詞的準確率將直接影響文語轉換系統語音合成的自然度。項目採用基於詞表的FMM(正向最大匹配)改進算法,分詞正確率由92.3%提升為93.8%,召回率由89.2%上升為90.6%。項目還研究了基於機器學習模型的傣語分詞方法,這些方法與傳統機械分詞方法相比,省去了詞典的構建,加速了分詞系統的開發流程。採用條件隨機場模型,傣語文本分詞準確率可達到94.36%。其效果優於樸素貝葉斯和決策樹。項目開發完成了一個具有自主智慧財產權的傣語文語轉換演示系統,填補了相關研究領域的一項空白。該演示系統的合成語音具有較高的可懂度,其自然度處於基本可接受水平。本項目為開發傣語文語轉換商業套用系統奠定了良好的基礎。

相關詞條

熱門詞條

聯絡我們