《中文問答系統技術及套用》全面系統地介紹問答系統的基本技術及套用,不僅討論受限領域的問答系統,而且討論開放領域的問答系統。全書共13章,第1章為緒論,介紹問答系統的研究背景、意義、研究現狀及分類,然後分為兩個部分,分別介紹受限域問答系統和開放域問答系統。在受限域問答系統中,討論面向常問問題庫及面向本體的問答策略,並討論推理機制在問答系統中的套用。
基本介紹
- 書名:中文問答系統技術及套用
- 作者:張巍
- ISBN:9787121282706
- 出版社:電子工業出版社
- 出版時間:2016-04-01
圖書內容,目 錄,
圖書內容
本書全面系統地介紹問答系統的基本技術及套用,不僅討論受限領域的問答系統,而且討論開放領域的問答系統。全書共13章,第1章為緒論,介紹問答系統的研究背景、意義、研究現狀及分類,然後分為兩個部分,分別介紹受限域問答系統和開放域問答系統。在受限域問答系統中,討論面向常問問題庫及面向本體的問答策略,並討論推理機制在問答系統中的套用。在開放域問答系統中,討論中文問題分類技術及關鍵字擴展技術,然後討論大規模問答對庫的建立、答案推薦的技術等。各章對理論的敘述力求概念清晰、表達準確,突出理論聯繫實際,富有啟發性,易於理解。
本書可以作為高等學校自然語言處理和計算語言學等專業本科生和研究生自然語言處理的教材,也可以作為從事自然語言處理相關領域的研究人員和技術人員的參考書。
目 錄
第1章 緒論 1
1.1 中文問答系統研究 1
1.1.1 研究背景 1
1.1.2 研究意義 2
1.2 問答系統國內外研究現狀 3
1.3 問答系統的分類 4
第一部分 受限域問答系統
第2章 受限域問答系統及本體 10
2.1 本書受限域問答系統研究內容 10
2.2 本書第一部分結構 11
2.3 本體語言簡介 12
2.3.1 本體的概念 12
2.3.2 本體描述語言OWL 12
2.4 “醫院”領域本體的構建 13
2.4.1 醫學知識的特點 13
2.4.2 利用Protégé構建“醫院”領域本體 14
2.5 實驗及結果分析 17
2.5.1 本體構建實驗 17
2.5.2 本體推理實驗——阿莫西林與抗感染藥推理過程 19
2.5.3 實驗結果分析 19
第3章 面向FAQ庫的問答策略 23
3.1 問題庫的建設 23
3.2 基於常問問題集的問答策略分析 25
3.2.1 索引表的建立 25
3.2.2 句子相似度計算策略1—基於統計和語義的方法 25
3.2.3 句子相似度計算策略2—基於依存句法和改進編輯距離的方法 29
3.2.4 FAQ庫的更新 31
3.3 實驗及結果分析 32
3.3.1 實驗評測標準 32
3.3.2 實驗結果及分析 32
第4章 面向本體知識庫的問答策略 36
4.1 本體知識庫問答模組概述 36
4.2 問句淺層語義分析 37
4.2.1 語義塊定義規則 37
4.2.2 問句向量 41
4.2.3 語義塊的判定 42
4.2.4 語義塊衝突的處理 42
4.3 問句處理實驗結果及分析 43
4.4 本體查詢模組答案的抽取 44
4.5 實驗及結果分析 46
4.6 面向本體知識庫的問答策略的不足與展望 47
第5章 Jena推理及在問答系統中的套用 48
5.1 推理機研究 48
5.1.1 推理機的功能 48
5.1.2 本體推理機 48
5.2 Jena研究 50
5.2.1 Jena及其結構 50
5.2.2 Jena2推理機 51
5.3 實驗設計及實現 52
5.3.1 Jena推理實驗一 52
5.3.2 Jena推理實驗二 54
5.3.3 實驗結果分析 55
第6章 SWRL及Jess推理在問答系統中的套用 56
6.1 SWRL架構及表示方式 56
6.2 基於本體的SWRL及Jess推理系統框架 57
6.3 推理系統的實現框架 58
6.4 推理過程 58
6.4.1 SWRL規則的建立 58
6.4.2 SWRL規則及OWL本體知識轉換 61
6.5 實驗及結果分析 61
6.5.1 在Protégé 3.4.1環境下的實驗 61
6.5.2 在MyEclipse環境下的實驗 63
6.5.3 實驗結果分析 65
第7章 城域醫院問答檢索系統的實現 66
7.1 系統的構建意義 66
7.2 系統設計原則 66
7.3 系統總體結構 66
7.4 系統實現與分析 67
第二部分 開放域問答系統
第8章 開放域問答系統概述 72
8.1 開放域問答系統的特點 72
8.2 開放域問答系統的基本結構 72
8.3 本書第二部分結構 73
第9章 基於語義特徵的中文問題分類方法 75
9.1 知網簡介 75
9.2 問題的表示 77
9.3 問題預處理和關鍵字提取 78
9.4 問題分類特徵的選取與表示 79
9.4.1 問題疑問詞的提取 79
9.4.2 問題的核心關鍵字在《知網》中的主要義原的提取 80
9.4.3 命名實體的提取 84
9.4.4 單/複數的提取 84
9.4.5 問句分類特徵的向量表示 85
9.5 問題分類算法 85
9.5.1 支持向量機 85
9.5.2 KNN算法 88
9.5.3 最大熵算法 89
9.6 問題分類體系 90
9.7 中文問題分類實驗 90
9.7.1 實驗方案 90
9.7.2 實驗數據 91
9.7.3 評價標準 92
9.7.4 實驗結果和實驗分析 92
第10章 基於同義詞詞林和知網的關鍵字擴展 95
10.1 關鍵字擴展的意義 95
10.2 信息檢索中的同義詞 96
10.3 同義詞詞林及其擴展版 97
10.4 基於知網的詞語相似度計算 98
10.5 利用《同義詞詞林》擴展,利用《知網》精簡的關鍵字擴展 99
10.6 實驗結果及其討論 100
10.6.1 同義詞擴展實驗 100
10.6.2 擴展查詢實驗 101
第11章 答案源的獲取方法研究 102
11.1 網頁採集 102
11.2 網頁去重 106
11.2.1 網頁的預處理 106
11.2.2 網頁去重的處理方法 107
11.2.3 網頁去重算法測評 111
11.3 信息提取 111
11.3.1 網頁淨化 111
11.3.2 DOM樹的概念 112
11.3.3 模糊歸類算法 113
11.3.4 節點影響度因子 114
11.3.5 算法綜述 114
11.3.6 實驗設計與結果 115
11.4 基於百度知道的問答對庫的建立 117
11.4.1 百度知道問答社區簡介 117
11.4.2 建立基於關係模式的問答對庫 119
第12章 基於大規模問答對庫的答案推薦 121
12.1 研究背景和研究現狀 121
12.2 問題相似度計算方法 122
12.2.1 基於向量空間的TF-IDF句子相似度計算方法 123
12.2.2 基於關鍵字語義的句子相似度計算方法 123
12.2.3 基於語義依存的句子相似度計算方法 124
12.3 實驗過程及結果分析句子相似度計算的評價 125
12.3.1 實驗數據 125
12.3.2 實驗方法及結果 125
第13章 基於相似問題推薦的問答系統原型 127
13.1 基於相似問題推薦的問答系統技術路線 127
13.2 基於相似問題推薦的問答系統原型結構圖 127
13.3 原型系統工作方式 128
附錄A 中文問題分類標準 130
附錄B 百度知道的分類體系 132
附錄C 知網與ICTCLAS詞性標註方式比較 133
附錄D 哈爾濱工業大學的依存句法分析中的句法關係 134
附錄E 知網義原樹的組成 135
附錄F 知網知識詞典中特殊符號的含義 136
參考文獻 137