《藏文自動分詞的理論與方法研究》是龍從軍編輯出版的圖書。
基本介紹
- 書名:藏文自動分詞的理論與方法研究
- 作者:龍從軍
內容簡介,作者簡介,讀者對象,目錄,
內容簡介
藏語分詞研究是藏語文本信息處理最基本的研究工作,國內藏語分詞研究經歷了十多年的歷史,研究方法也從最初的基於詞典匹配的規則方法到基於大規模文本的統計方法。但是到目前為止沒有一個實用的藏語分詞軟體和供分詞研究的評測語料庫。本書作者針對藏語分詞中的各種問題,進行細緻的闡述,並在同一評測語料庫的基礎上,對各種分詞方法進行實驗、測試,比較。
作者簡介
龍從軍,男,1978年9月,中國社會科學院民族學與人類學研究所語音學與計算語言學研究室助理研究員,博士,中國科學院軟體研究所基礎軟體研究中心博士後(在站)。
主要研究方向:藏語計算語言學,尤其在藏語自動分詞、詞性自動標註、句法語義自動標註方面進行過大量的研究。撰寫多篇論文,出版合著2本。
讀者對象
藏語計算語言學、藏語文本信息處理的研究人員,民族語言計算語言學方向學生。對藏文感興趣的社會讀者
目錄
第1章 現代藏文文本特點
1.1現代藏文字母、符號和編碼
1.2藏文字元編碼與分詞的關係
1.3藏文音節結構
1.4藏文的數字
1.5藏文黏寫特點
1.6藏文標點符號特點
1.7 藏文命名實體的特點
1.7.1藏文人名特點
1.7.2藏文地名的特點
1.7.3藏文機構名的特點
1.7.4藏文時間詞特點
1.7.5藏文的地址特點
1.8藏文文本的其他特點
第2章 藏語分詞研究的歷史與現狀
2.1引言
2.2藏語分詞的思路
2.3藏語分詞原則及分詞詞表研究
2.4藏語分詞技術研究
2.5藏語現有分詞系統比較
第3章 藏語文本分詞規範與原則
3.1藏語機器分詞原則的討論
3.1.1 漢語分詞原則的研究歷史
3.1.2 藏文分詞原則的研究歷史
3.2藏語分詞原則的操作
3.2.1藏語分詞總原則
3.2.2藏語分詞細則
3.3 本書分詞語料庫簡介
第4章 藏語黏寫形式切分方法比較研究
4.1 藏語黏寫形式特點
4.1.1黏寫形式的含義
4.1.2 黏寫形式切分困難
4.1.3黏寫形式的分布
4.2黏寫形式切分方法
4.2.1基於規則的還原法
4.2.2基於規則和統計結合的切分方法
4.2.3基於統計的字位標註法
4.3黏寫形式切分實驗及結果比較
4.3.1基於規則的一體化切分實驗
4.3.2基於統計的黏寫分詞一體化切分實驗
4.3.4基於統計的“單切分”實驗
4.3.5基於統計和規則相結合實驗
第5章 基於規則的藏語分詞研究
5.1 規則分詞
5.1.1最大匹配分詞法
5.1.2逐詞遍歷匹配法
5.2藏語規則匹配分詞存在的問題
5.2.1未登錄詞對分詞的影響
5.2.3歧義切分對分詞的影響
5.3基於規則分詞方法的改進
5.3.1基於組塊的分詞改進
5.3.2加入詞頻信息
5.3.3設立切詞標記
5.3.4詞典排序的改進
5.4規則分詞評測標準及實驗分析
5.4.1 分詞評測標準
5.4.2分詞評測語料
5.4.3 最大匹配分詞實驗
5.4.4 基於黏寫預處理的規則分詞實驗
5.4.5 基於格分塊的規則分詞實驗
5.5 基於規則的分詞軟體簡介
5.5.1軟體說明
5.5.2軟體安裝與卸載
5.5.3軟體平台
5.5.4軟體操作
第6章 基於規則分詞的數詞處理
6.1藏文的數字及數詞結構
6.2基於規則的藏文數字識別
6.2.1數字構件的分類
6.2.2 數字識別
6.2.3 實驗結果
第7章 基於最大熵模型的藏文分詞研究
7.1引言
7.2最大熵模型
7.2.1信息熵
7.2.2互信息
7.2.3最大熵原理
7.2.4最大熵模型
7.3最大熵模型在藏語分詞中的套用
7.3.1最大熵模型套用於藏語分詞的基本思想
7.3.2最大熵模型的下載與安裝
7.3.3最大熵藏文分詞模型的訓練
7.3.4最大熵藏文分詞模型的測試
7.4 基於字位的藏文最大熵分詞實驗
7.4.1 最大熵分詞實驗
7.4.2錯誤分析
第8章 基於條件隨機場模型的藏文分詞研究
8.1條件隨機場模型簡介
8.2條件隨機場的藏文分詞的原理和方法
8.3字位標註的藏文分詞原理
8.3.1基本思想
8.3.2標籤集的最佳化
8.3.3特徵模板集
8.4 實驗及結果分析
8.4.1 實驗設計
8.4.2 實驗結果與分析
8.4.3 錯誤分析
8.4.4 基於統計的數字處理
8.4.5 基於統計的數字處理實驗及結果
8.5基於統計的藏語分詞軟體簡介
8.5.1軟體說明
8.5.2軟體安裝與卸載
8.5.3軟體使用
8.5.4 打開檔案
8.5.5 模型訓練
8.5.6 利用模型分詞
第9章 基於融合方法的藏文分詞研究
9.1統計與規則相結合的藏語分詞
9.1.1 TBL方法原理
9.1.2 TBL模型
9.1.3 TBL融合實驗
9.2統計、詞典和語言規則相結合的分詞實驗
9.2.1黏寫音節切分錯誤校正
9.2.2由語法問題導致切分錯誤的校正
9.2.3歧義切分錯誤校正
9.3分詞實驗語料一致性檢測
第10章 藏語分詞、詞性標註一體化研究
10.1分詞和詞性標註一體的概述
10.2藏語詞性標註的現狀和問題
10.3 藏語分詞、詞性標註一體化研究
10.3.1基於詞級的分詞標註一體化研究
10.3.2基於字的分詞標註一體化研究
附錄1信息處理用現代藏語分詞規範(草案)
1.1範圍
1.2規範性引用檔案
1.3術語和定義
1.4總則
1.5具體說明
1.6參考文獻
附錄2 信息處理用現代藏語詞類標記集規範(草案)
2.1前言
2.2範圍
2.3規範性引用檔案
2.4術語和定義
2.5總則
2.6具體說明
2.2.7有關說明
2.2.8參考文獻
附錄3 多級標註語料庫簡介
3.1語料加工平台
3.2語料選擇
附錄4 CRF工具包介紹
4.1 CRF工具下載與安裝
4.2製作相關的檔案
4.3訓練模型
4.4測試
附錄5分詞測試工具包使用說明
5.1工具包下載和安裝
5.2製作相關檔案
5.3測試
附錄6 fnTBL工具包介紹
6.1工具包下載和安裝
6.2製作運行fnTBL工具包的相關運行檔案。
6.3訓練fnTBL模型
6.4測試
附錄7 藏文拉丁轉寫表