基本介紹
- 書名:漢語語音合成:原理和技術
- 出版社:科學出版社
- 頁數:373頁
- 開本:5
- 品牌:科學出版社
- 作者:呂士楠 初敏
- 出版日期:2012年1月1日
- 語種:簡體中文
- ISBN:9787030329202
基本介紹,內容簡介,作者簡介,圖書目錄,
基本介紹
內容簡介
《現代聲學科學與技術叢書:漢語語音合成·原理和技術》面向從事語言聲學、語音通信技術,特別是語音合成的科學工作者、工程技術人員、大學教師、研究生和高年級的大學生,可作為他們研究、開發、進修的參考書。
作者簡介
呂士楠,1937年生,浙江新昌籍人氏。1960年大學畢業,1962年任中國科學院聲學研究所實習研究員,1994年晉升為研究員,直至1999年退休。在語言聲學研究方面曾獲中國科學院自然科學一等獎和國家自然科學三等獎各一項。主攻漢語語音合成領域,曾承擔國家自然科學基金、“863”項目和中國科學院重大項目,發表論文百餘篇。現為中國聲學學會會員、第五屆聲學學會常務理事、言語聲學分會主任。
初敏,1995年於中國科學院聲學研究所獲博士學位。後在中國科學院聲學研究所、英特爾和微軟中國研究中心任職,在語音合成方面有突出貢獻,在國內外核心期刊、會議上發表數十篇學術論文,成功申請國內外專利二十多項。2009年加入阿里雲計算團隊,任研究員、數據套用部門總監,負責大規模數據採集、處理和挖掘等工作。
許潔萍,1999年於中國科學院聲學研究所獲博士學位,曾任中國科學院計算機語言信息工程研究中心副主任、華建機器翻譯有限公司副總經理,從事計算機口語翻譯,特別是口語輸出的研究。主持或承擔國家自然科學基金項目兩項,獲省部級科技進步二等獎兩項,發表論文四十餘篇。現任中國人民大學信息學院副教授,從事音樂檢索、言語節奏及其合成方面的研究。
賀琳,1992年大學畢業。自1993年以來一直在中國科學院聲學研究所從事語言聲學研究,特別是言語數據的收集和資料庫的建立,十多年來在此領域積累了豐富經驗,成功地為國內外語音技術研究和開發提供了多語種、多用途資料庫數百個,已在國際上享有一定聲望。現任中國聲學學會語言、音樂和聽覺分會委員,中文語言資源聯盟委員會委員。
初敏,1995年於中國科學院聲學研究所獲博士學位。後在中國科學院聲學研究所、英特爾和微軟中國研究中心任職,在語音合成方面有突出貢獻,在國內外核心期刊、會議上發表數十篇學術論文,成功申請國內外專利二十多項。2009年加入阿里雲計算團隊,任研究員、數據套用部門總監,負責大規模數據採集、處理和挖掘等工作。
許潔萍,1999年於中國科學院聲學研究所獲博士學位,曾任中國科學院計算機語言信息工程研究中心副主任、華建機器翻譯有限公司副總經理,從事計算機口語翻譯,特別是口語輸出的研究。主持或承擔國家自然科學基金項目兩項,獲省部級科技進步二等獎兩項,發表論文四十餘篇。現任中國人民大學信息學院副教授,從事音樂檢索、言語節奏及其合成方面的研究。
賀琳,1992年大學畢業。自1993年以來一直在中國科學院聲學研究所從事語言聲學研究,特別是言語數據的收集和資料庫的建立,十多年來在此領域積累了豐富經驗,成功地為國內外語音技術研究和開發提供了多語種、多用途資料庫數百個,已在國際上享有一定聲望。現任中國聲學學會語言、音樂和聽覺分會委員,中文語言資源聯盟委員會委員。
圖書目錄
序一
序二
前言
基礎篇
第1章語音合成技術史的敘述
1.1機械式語音合成器
1.1.1Kempelen的講話機
1.1.2Euphonia講話機
1.2電子式語音合成器
1.2.1VODER
1.2.2模式播放器
1.2.3共振峰合成器
1.3基於計算機的語音合成
1.3.1數字式共振峰語音合成技術
1.3.2波形拼接合成技術
1.4漢語語音合成的發展
1.4.1漢語合成研究的先驅
1.4.2國內漢語合成技術的研究
1.5總結
參考文獻
附錄合成語音樣品
第2章聲學語音學
2.1聲學基礎
2.1.1空氣中的聲波
2.1.2波動方程
2.1.3聲音在管子中的傳播
2.2言語交際過程
2.2.1語音的產生
2.2.2語音的感知
2.3語音的聲學特徵
2.3.1語音的時間維及頻率維表示
2.3.2頻譜分析
2.3.3語圖和語音的頻譜分析方法
2.3.4元音的頻譜
2.3.5輔音的頻譜
2.3.6音軌
2.4漢語國語的音位系統
2.4.1漢語國語的輔音系統
2.4.2漢語國語的元音系統
2.4.3漢語傳統的聲韻調系統
2.5總結
參考文獻
第3章韻律
3.1語調模型
3.1.1“調核”理論和INTSINT語調模型
3.1.2Pierrehumbert有限狀態網路模型
3.1.3Tilt語調模型
3.1.4Fujisaki模型
3.1.5PENTA模型
3.2漢語國語韻律的基本單元
3.2.1詞調
3.2.2短語語調
3.3句調和篇章韻律
3.3.1語篇語調
3.3.2朗讀風格的影響
3.4總結
參考文獻
第4章漢語文語轉換系統
4.1合成語音自然度的研究
4.1.1合成語音自然度實驗
4.1.2音聯對自然度的影響
4.1.3漢語語句重音的聲學表現
4.2漢語共振峰合成系統
4.2.1系統框圖
4.2.2合成單元
4.2.3語言學處理
4.2.4韻律設計
4.2.5聲學處理
4.3基音同步波形疊加合成
4.3.1PSOLA算法
4.3.2漢語的韻律——播音風格言語的聲學分析
4.3.3KX-PSOLA漢語文語轉換系統的韻律模型
4.3.4高清晰度高自然度KX-PSOLA漢語文語轉換系統
4.3.5《聯想佳音》
4.4總結
參考文獻
專題篇
第5章國語的節律和重音的實驗研究
5.1基於大規模語料庫的韻律研究
5.1.1語料庫的設計原則
5.1.2語料庫的後期加工
5.1.3語料庫的實體
5.2國語的節律組織
5.2.1節律組織中的自由度
5.2.2節律組織規則
5.3國語的重音標註、分類及分配
5.3.1重音的知覺強度標註
5.3.2重音強度的三級標註
5.3.3語義重音與節奏重音
5.3.4重音的分布與韻律邊界
5.3.5總結
參考文獻
第6章基於大規模語料庫的波形拼接合成
6.1韻律控制策略
6.1.1全控制策略
6.1.2半控制策略
6.1.3軟控制策略
6.2基於韻律軟控制策略的TTS系統的結構
6.3單元選擇和波形拼接的策略和方法
6.3.1音節關聯的上下文矢量
6.3.2上下文矢量的距離
6.4建立語音特徵覆蓋完備的言語資料庫
6.4.1音庫覆蓋率與規模
6.4.2言語數據波形的採集和標註
6.4.3標註精度對合成自然度的影響
6.4.4基於上下文相關邊界模型的自動切分方法
6.4.5音段波形的直接拼接合成
6.4.6小結
6.5木蘭-漢英雙語TTS系統
6.5.1木蘭的結構
6.5.2統一的文本標準化模組
6.5.3語言檢測和分發模組及單元提取模組
6.5.4言語資料庫
6.5.5小結
6.6更多套用
6.6.1個性化TTS系統
6.6.2領域自適應TTS
6.6.3網際網路個性化語音服務
6.7總結
參考文獻
第7章波形拼接合成語料庫生成技術
7.1錄音腳本的設計
7.1.1音段特徵覆蓋
7.1.2韻律特徵覆蓋
7.2發音人的挑選
7.2.1發音人性別的選擇
7.2.2發音人年齡的限制
7.2.3發音人籍貫的選擇
7.2.4音色的要求
7.2.5專業水平的考查
7.2.6發音人的工作時間保證
7.2.7候選發音人人數的考慮
7.2.8候選人的發音評估
7.3音庫錄製
7.3.1錄音室
7.3.2錄音設備
7.3.3錄音程式
7.4數字錄音材料的處理
7.4.1複審
7.4.2標音
7.5總結
參考文獻
第8章語音合成系統的質量評估
8.1語音輸出系統質量評估方法
8.1.1音節清晰度測試
8.1.2詞和句的可懂度測試
8.1.3語句和篇單的整體性能測試
8.1.4評測的原則
8.2漢語語音合成質量評估
8.2.11994年“863”漢語語音合成系統評測
8.2.21995年漢語語音合成系統評價方法
8.3國家語言文字工作委員會漢語語音合成系統評測
8.3.12004年漢語語音合成系統評價方法
8.3.22004年的評測結果和分析
8.4MOS和PC評估方法的比較
8.4.1測試文本和測試條件
8.4.2MOS評估
8.4.3PC測試
8.4.4MOS和PC評測比較結果
8.5漢語合成語音評測新方法探索
8.6總結
參考文獻
附錄2004年評估測試語料
第9章展望
9.1STRAIGHT分析合成技術
9.2基於HMM的語音合成
9.2.1系統的框圖
9.2.2訓練集及參數提取
9.2.3HMM模型化
9.2.4基於上下文聚類的決策樹
9.2.5言語合成
9.3從概念到語音的合成
9.3.1SOLE系統
9.3.2SOCS系統
9.4多語種合成系統
9.5口語翻譯系統
9.6總結
參考文獻
後記
序二
前言
基礎篇
第1章語音合成技術史的敘述
1.1機械式語音合成器
1.1.1Kempelen的講話機
1.1.2Euphonia講話機
1.2電子式語音合成器
1.2.1VODER
1.2.2模式播放器
1.2.3共振峰合成器
1.3基於計算機的語音合成
1.3.1數字式共振峰語音合成技術
1.3.2波形拼接合成技術
1.4漢語語音合成的發展
1.4.1漢語合成研究的先驅
1.4.2國內漢語合成技術的研究
1.5總結
參考文獻
附錄合成語音樣品
第2章聲學語音學
2.1聲學基礎
2.1.1空氣中的聲波
2.1.2波動方程
2.1.3聲音在管子中的傳播
2.2言語交際過程
2.2.1語音的產生
2.2.2語音的感知
2.3語音的聲學特徵
2.3.1語音的時間維及頻率維表示
2.3.2頻譜分析
2.3.3語圖和語音的頻譜分析方法
2.3.4元音的頻譜
2.3.5輔音的頻譜
2.3.6音軌
2.4漢語國語的音位系統
2.4.1漢語國語的輔音系統
2.4.2漢語國語的元音系統
2.4.3漢語傳統的聲韻調系統
2.5總結
參考文獻
第3章韻律
3.1語調模型
3.1.1“調核”理論和INTSINT語調模型
3.1.2Pierrehumbert有限狀態網路模型
3.1.3Tilt語調模型
3.1.4Fujisaki模型
3.1.5PENTA模型
3.2漢語國語韻律的基本單元
3.2.1詞調
3.2.2短語語調
3.3句調和篇章韻律
3.3.1語篇語調
3.3.2朗讀風格的影響
3.4總結
參考文獻
第4章漢語文語轉換系統
4.1合成語音自然度的研究
4.1.1合成語音自然度實驗
4.1.2音聯對自然度的影響
4.1.3漢語語句重音的聲學表現
4.2漢語共振峰合成系統
4.2.1系統框圖
4.2.2合成單元
4.2.3語言學處理
4.2.4韻律設計
4.2.5聲學處理
4.3基音同步波形疊加合成
4.3.1PSOLA算法
4.3.2漢語的韻律——播音風格言語的聲學分析
4.3.3KX-PSOLA漢語文語轉換系統的韻律模型
4.3.4高清晰度高自然度KX-PSOLA漢語文語轉換系統
4.3.5《聯想佳音》
4.4總結
參考文獻
專題篇
第5章國語的節律和重音的實驗研究
5.1基於大規模語料庫的韻律研究
5.1.1語料庫的設計原則
5.1.2語料庫的後期加工
5.1.3語料庫的實體
5.2國語的節律組織
5.2.1節律組織中的自由度
5.2.2節律組織規則
5.3國語的重音標註、分類及分配
5.3.1重音的知覺強度標註
5.3.2重音強度的三級標註
5.3.3語義重音與節奏重音
5.3.4重音的分布與韻律邊界
5.3.5總結
參考文獻
第6章基於大規模語料庫的波形拼接合成
6.1韻律控制策略
6.1.1全控制策略
6.1.2半控制策略
6.1.3軟控制策略
6.2基於韻律軟控制策略的TTS系統的結構
6.3單元選擇和波形拼接的策略和方法
6.3.1音節關聯的上下文矢量
6.3.2上下文矢量的距離
6.4建立語音特徵覆蓋完備的言語資料庫
6.4.1音庫覆蓋率與規模
6.4.2言語數據波形的採集和標註
6.4.3標註精度對合成自然度的影響
6.4.4基於上下文相關邊界模型的自動切分方法
6.4.5音段波形的直接拼接合成
6.4.6小結
6.5木蘭-漢英雙語TTS系統
6.5.1木蘭的結構
6.5.2統一的文本標準化模組
6.5.3語言檢測和分發模組及單元提取模組
6.5.4言語資料庫
6.5.5小結
6.6更多套用
6.6.1個性化TTS系統
6.6.2領域自適應TTS
6.6.3網際網路個性化語音服務
6.7總結
參考文獻
第7章波形拼接合成語料庫生成技術
7.1錄音腳本的設計
7.1.1音段特徵覆蓋
7.1.2韻律特徵覆蓋
7.2發音人的挑選
7.2.1發音人性別的選擇
7.2.2發音人年齡的限制
7.2.3發音人籍貫的選擇
7.2.4音色的要求
7.2.5專業水平的考查
7.2.6發音人的工作時間保證
7.2.7候選發音人人數的考慮
7.2.8候選人的發音評估
7.3音庫錄製
7.3.1錄音室
7.3.2錄音設備
7.3.3錄音程式
7.4數字錄音材料的處理
7.4.1複審
7.4.2標音
7.5總結
參考文獻
第8章語音合成系統的質量評估
8.1語音輸出系統質量評估方法
8.1.1音節清晰度測試
8.1.2詞和句的可懂度測試
8.1.3語句和篇單的整體性能測試
8.1.4評測的原則
8.2漢語語音合成質量評估
8.2.11994年“863”漢語語音合成系統評測
8.2.21995年漢語語音合成系統評價方法
8.3國家語言文字工作委員會漢語語音合成系統評測
8.3.12004年漢語語音合成系統評價方法
8.3.22004年的評測結果和分析
8.4MOS和PC評估方法的比較
8.4.1測試文本和測試條件
8.4.2MOS評估
8.4.3PC測試
8.4.4MOS和PC評測比較結果
8.5漢語合成語音評測新方法探索
8.6總結
參考文獻
附錄2004年評估測試語料
第9章展望
9.1STRAIGHT分析合成技術
9.2基於HMM的語音合成
9.2.1系統的框圖
9.2.2訓練集及參數提取
9.2.3HMM模型化
9.2.4基於上下文聚類的決策樹
9.2.5言語合成
9.3從概念到語音的合成
9.3.1SOLE系統
9.3.2SOCS系統
9.4多語種合成系統
9.5口語翻譯系統
9.6總結
參考文獻
後記