Python和NLTK自然語言處理

內容簡介

NLTK是自然語言處理領域中非常受歡迎和廣泛使用的Python庫。NLTK的優點在於其簡單性，其厚符說中大多數複雜的自然語言處理坑道任務使用幾行代碼即可完成。本書旨在講述如何用Python和NLTK解決各種自然語言處理任務並開發機器學習方面的套用。本書介紹了NLTK的基本模組，講述了採用NLTK實現自然語言處理的大量技巧，討論了一些文本處理方法和語言處理技術，展示了使用Python實現NLP項目的大糊墓囑量實踐經驗。本書主要內容包括文本挖掘/NLP任務中所需的所有預處理步驟，如何使用Python 3的NLTK 3進行文本處理，如何通過Python開展NLP項目。

本書適合NLP和機器學習領域的愛好者、Python程式設計師以及機器學習領域的研究人員閱讀。

圖書目錄

模組1　NLTK基礎知識

第　1章自然語言處理簡介　3

1.1　為什麼要學習NLP　4

從Python的基本知識開始　7

1.2.1　列表　7

1.2.2　自助　8

1.2.3　正則表達式　9

1.2.4　詞典　11

1.2.5　編寫函式　11

1.3　NLTK　13

1.4　試一試　18

1.5　本章小結　18

第　2章文本的整理和清洗　19

2.1　文本整理　19

2.2　文本清洗　21

2.3　句子拆分器　22

2.4　標記解析　22

2.5　詞幹提取　24

2.6　詞形還原　25

2.7　停用詞刪除　26

2.8　生僻字刪除　27

2.9　拼寫校正　27

2.10　試一試　28

2.11　本章小結　28

第3章　詞性標註　30

3.1　什麼是詞性標註　30

3.1.1　斯坦福標註器　33

3.1.2　深入了解標註器　34

3.1.3　序列標註器　35

3.1.4　布里爾標註器　37

3.1.5　基於標註器的機器學習　37

3.2　命名實體識別　38

3.3　試一試　40

3.4　本章小結　41

第4章　對文本的結構進行求民辯背語法分析　42

4.1　淺層語法分析與深層語法

分析　42

4.2　語法分析的兩種方法　43

4.3　為什麼需要語法分析　43

4.4　不同類型的語法分析器　45

4.4.1　遞歸下降的語法分析器　45

4.4.2　移位歸約語法分析器邀牛民犁　45

4.4.3　圖表語法分析器　45

4.4.4　正則表達式語法

分析器　46

4.5　依存分析　47

4.6　組塊化　49

4.7　信息抽取　51

4.7.1　命名實體識別　52

4.7.2　關係抽取　52

4.8　本章小結　53

第5章　NLP應駝龍少用　54

5.1　構建第一個NLP套用　54

5.2　其他的NLP套用　58

5.2.1　機器翻譯　58

5.2.2　統計機器翻譯　59

5.2.3　信息檢索　59

5.2.4　語音識別　61

5.2.5　文本分類　62

5.2.6　信息提取　63

5.2.7　問答系統　64

5.2.8　對話系統　64

5.2.9　詞義消歧　64

5.2.10　主題建模　64

5.2.11　語言檢測　65

5.2.12　光學字元識別　65

5.3　本章小結　65

第6章　文本分類　66

6.1　機器學習　67

6.2　文本分類　68

6.3　採樣　70

6.3.1　樸素貝葉斯　73

6.3.2　決策樹　75

6.3.3　隨機梯度下降　76

6.3.4　邏輯回歸　77

6.3.5　支持向量機　78

6.4　隨機森林算法　79

6.5　文本聚類　79

6.6　文本的主題建模芝愉微　81

6.7　參考資料　83

6.8　本章小結　83

第7章　網路爬取　85

7.1　網路爬蟲　85

7.2　編寫第一個爬蟲程式　86

7.3　Scrapy中的數據流　89

7.3.1　Scrapy命令行界面　89

7.3.2　項　94

7.4　站點地圖蜘蛛　96

7.5　項管道　97

7.6　外部參考　98

7.7　本章小結　99

第8章　與其他Python庫一同

使用NLTK　100

8.1　NumPy　100

8.1.1　ndarray　101

8.1.2　基本操作　102

8.1.3　從數組中提取數據　103

8.1.4　複雜的矩陣運算　103

8.2　SciPy　107

8.2.1　線性代數　108

8.2.2　特徵值和特徵向量　108

8.2.3　稀疏矩陣　109

8.2.4　最佳化　110

8.3　Pandas　111

8.3.1　讀取數據　112

8.3.2　時序數據　114

8.3.3　列轉換　115

8.3.4　噪聲數據　116

8.4　Matplotlib　117

8.4.1　subplot　118

8.4.2　添加軸　119

8.4.3　散點圖　120

8.4.4　柱狀圖　120

8.4.5　3D圖　121

8.5　外部參考　121

8.6　本章小結　121

第9章　使用Python進行社交媒體

挖掘　122

9.1　數據收集　122

9.2　數據提取　126

9.3　地理可視化　128

9.3.1　影響者檢測　129

9.3.2　Facebook　130

9.3.3　影響者的朋友　134

9.4　本章小結　135

第　10章大規模的文本挖掘　136

10.1　在Hadoop上使用Python的

不同方法　136

10.1.1　Python的流　137

10.1.2　Hive/Pig UDF　137

10.1.3　流包裝器　137

10.2　在Hadoop上運行NLTK　138

10.2.1　UDF　138

10.2.2　Python流　140

10.3　在Hadoop上運行

Scikit-learn　141

10.4　PySpark　144

10.5　本章小結　146

模組2　使用Python 3的NLTK 3進行文本處理

第　1章標記文本和WordNet的基礎　149

1.1　引言　149

1.2　將文本標記成句子　150

1.2.1　準備工作　150

1.2.2　工作方式　151

1.2.3　工作原理　151

1.2.4　更多信息　151

1.2.5　請參閱　152

1.3　將句子標記成單詞　152

1.3.1　工作方式　152

1.3.2　工作原理　153

1.3.3　更多信息　153

1.3.4　請參閱　154

1.4　使用正則表達式標記語句　154

1.4.1　準備工作　155

1.4.2　工作方式　155

1.4.3　工作原理　155

1.4.4　更多信息　155

1.4.5　請參閱　156

1.5　訓練語句標記生成器　156

1.5.1　準備工作　156

1.5.2　工作方式　156

1.5.3　工作原理　157

1.5.4　更多信息　158

1.5.5　請參閱　158

1.6　在已標記的語句中過濾

停用詞　158

1.6.1　準備工作　158

1.6.2　工作方式　159

1.6.3　工作原理　159

1.6.4　更多信息　159

1.6.5　請參閱　160

1.7　查找WordNet中單詞的

Synset　160

1.7.1　準備工作　160

1.7.2　工作方式　160

1.7.3　工作原理　161

1.7.4　更多信息　161

1.7.5　請參閱　163

1.8　在WordNet中查找詞元和

同義詞　163

1.8.1　工作方式　163

1.8.2　工作原理　163

1.8.3　更多信息　163

1.8.4　請參閱　165

1.9　計算WordNet和Synset的

相似度　165

1.9.1　工作方式　165

1.9.2　工作原理　165

1.9.3　更多信息　166

1.9.4　請參閱　167

1.10　發現單詞搭配　167

1.10.1　準備工作　167

1.10.2　工作方式　167

1.10.3　工作原理　168

1.10.4　更多信息　168

1.10.5　請參閱　169

第　2章替換和校正單詞　170

2.1　引言　170

2.2　詞幹提取　170

2.2.1　工作方式　171

2.2.2　工作原理　171

2.2.3　更多信息　171

2.2.4　請參閱　173

2.3　使用WordNet進行詞形還原　173

2.3.1　準備工作　173

2.3.2　工作方式　173

2.3.3　工作原理　174

2.3.4　更多信息　174

2.3.5　請參閱　175

2.4　基於匹配的正則表達式替換

單詞　175

2.4.1　準備工作　175

2.4.2　工作方式　175

2.4.3　工作原理　176

2.4.4　更多信息　177

2.4.5　請參閱　177

2.5　移除重複字元　177

2.5.1　準備工作　177

2.5.2　工作方式　178

2.5.3　工作原理　178

2.5.4　更多信息　179

2.5.5　請參閱　179

2.6　使用Enchant進行拼寫校正　180

2.6.1　準備工作　180

2.6.2　工作方式　180

2.6.3　工作原理　181

2.6.4　更多信息　181

2.6.5　請參閱　183

2.7　替換同義詞　183

2.7.1　準備工作　183

2.7.2　工作方式　183

2.7.3　工作原理　184

2.7.4　更多信息　184

2.7.5　請參閱　185

2.8　使用反義詞替換否定形式　186

2.8.1　工作方式　186

2.8.2　工作原理　187

2.8.3　更多信息　187

2.8.4　請參閱　188

第3章　創建自定義語料庫　189

3.1　引言　189

3.2　建立自定義語料庫　190

3.2.1　準備工作　190

3.2.2　工作方式　190

3.2.3　工作原理　191

3.2.4　更多信息　192

3.2.5　請參閱　192

3.3　創建辭彙表語料庫　192

3.3.1　準備工作　192

3.3.2　工作方式　193

3.3.3　工作原理　193

3.3.4　更多信息　194

3.3.5　請參閱　194

3.4　創建已標記詞性單詞的

語料庫　195

3.4.1　準備工作　195

3.4.2　工作方式　195

3.4.3　工作原理　196

3.4.4　更多信息　196

3.4.5　請參閱　199

3.5　創建已組塊短語的語料庫　199

3.5.1　準備工作　199

3.5.2　工作方式　199

3.5.3　工作原理　201

3.5.4　更多信息　201

3.5.5　請參閱　203

3.6　創建已分類文本的語料庫　203

3.6.1　準備工作　204

3.6.2　工作方式　204

3.6.3　工作原理　204

3.6.4　更多信息　205

3.6.5　請參閱　206

3.7　創建已分類組塊語料庫

讀取器　206

3.7.1　準備工作　206

3.7.2　工作方式　207

3.7.3　工作原理　208

3.7.4　更多信息　209

3.7.5　請參閱　213

3.8　懶惰語料庫載入　213

3.8.1　工作方式　213

3.8.2　工作原理　214

3.8.3　更多信息　214

3.9　創建自定義語料庫視圖　215

3.9.1　工作方式　215

3.9.2　工作原理　216

3.9.3　更多信息　217

3.9.4　請參閱　218

3.10　創建基於MongoDB的

語料庫讀取器　218

3.10.1　準備工作　219

3.10.2　工作方式　219

3.10.3　工作原理　220

3.10.4　更多信息　221

3.10.5　請參閱　221

3.11　在加鎖檔案的情況下編輯

語料庫　221

3.11.1　準備工作　221

3.11.2　工作方式　221

3.11.3　工作原理　222

第4章　詞性標註　224

4.1　引言　224

4.2　默認標註　225

4.2.1　準備工作　225

4.2.2　工作方式　225

4.2.3　工作原理　226

4.2.4　更多信息　227

4.2.5　請參閱　228

4.3　訓練一元組詞性標註器　228

4.3.1　工作方式　228

4.3.2　工作原理　229

4.3.3　更多信息　230

4.3.4　請參閱　231

4.4　回退標註的組合標註器　231

4.4.1　工作方式　231

4.4.2　工作原理　232

4.4.3　更多信息　232

4.4.4　請參閱　233

4.5　訓練和組合N元標註器　233

4.5.1　準備工作　233

4.5.2　工作方式　233

4.5.3　工作原理　234

4.5.4　更多信息　235

4.5.5　請參閱　236

4.6　創建似然單詞標籤的

模型　236

4.6.1　工作方式　236

4.6.2　工作原理　237

4.6.3　更多信息　237

4.6.4　請參閱　238

4.7　使用正則表達式標註　238

4.7.1　準備工作　238

4.7.2　工作方式　238

4.7.3　工作原理　239

4.7.4　更多信息　239

4.7.5　請參閱　239

4.8　詞綴標籤　239

4.8.1　工作方式　239

4.8.2　工作原理　240

4.8.3　更多信息　240

4.8.4　請參閱　241

4.9　訓練布里爾標註器　241

4.9.1　工作方式　241

4.9.2　工作原理　242

4.9.3　更多信息　243

4.9.4　請參閱　244

4.10　訓練TnT標註器　244

4.10.1　工作方式　244

4.10.2　工作原理　244

4.10.3　更多信息　245

4.10.4　請參閱　246

4.11　使用WordNet進行

標註　246

4.11.1　準備工作　246

4.11.2　工作方式　247

4.11.3　工作原理　248

4.11.4　請參閱　248

4.12　標註專有名詞　248

4.12.1　工作方式　248

4.12.2　工作原理　249

4.12.3　請參閱　249

4.13　基於分類器的標註　249

4.13.1　工作方式　250

4.13.2　工作原理　250

4.13.3　更多信息　251

4.13.4　請參閱　252

4.14　使用NLTK訓練器訓練

標註器　253

4.14.1　工作方式　253

4.14.2　工作原理　254

4.14.3　更多信息　258

4.14.4　請參閱　260

第5章　提取組塊　261

5.1　引言　261

5.2　使用正則表達式組塊和

隔斷　262

5.2.1　準備工作　262

5.2.2　工作方式　262

5.2.3　工作原理　263

5.2.4　更多信息　265

5.2.5　請參閱　267

5.3　使用正則表達式合併和拆分

組塊　267

5.3.1　工作方式　267

5.3.2　工作原理　269

5.3.3　更多信息　270

5.3.4　請參閱　271

5.4　使用正則表達式擴展和刪除

組塊　271

5.4.1　工作方式　271

5.4.2　工作原理　272

5.4.3　更多信息　273

5.4.4　請參閱　273

5.5　使用正則表達式進行部分

解析　273

5.5.1　工作方式　273

5.5.2　工作原理　274

5.5.3　更多信息　275

5.5.4　請參閱　276

5.6　訓練基於標註器的組塊器　276

5.6.1　工作方式　276

5.6.2　工作原理　277

5.6.3　更多信息　278

5.6.4　請參閱　279

5.7　基於分類的分塊　279

5.7.1　工作方式　279

5.7.2　工作原理　282

5.7.3　更多信息　282

5.7.4　請參閱　283

5.8　提取命名實體　283

5.8.1　工作方式　283

5.8.2　工作原理　284

5.8.3　更多信息　284

5.8.4　請參閱　285

5.9　提取專有名詞組塊　285

5.9.1　工作方式　286

5.9.2　工作原理　286

5.9.3　更多信息　286

5.10　提取部位組塊　287

5.10.1　工作方式　288

5.10.2　工作原理　290

5.10.3　更多信息　290

5.10.4　請參閱　290

5.11　訓練命名實體組塊器　290

5.11.1　工作方式　290

5.11.2　工作原理　292

5.11.3　更多信息　292

5.11.4　請參閱　293

5.12　使用NLTK訓練器訓練

組塊器　293

5.12.1　工作方式　293

5.12.2　工作原理　294

5.12.3　更多信息　295

5.12.4　請參閱　299

第6章　轉換組塊與樹　300

6.1　引言　300

6.2　過濾句子中無意義的

單詞　301

6.2.1　準備工作　301

6.2.2　工作方式　301

6.2.3　工作原理　302

6.2.4　更多信息　302

6.2.5　請參閱　303

6.3　糾正動詞形式　303

6.3.1　準備工作　303

6.3.2　工作方式　303

6.3.3　工作原理　305

6.3.4　請參閱　306

6.4　交換動詞短語　306

6.4.1　工作方式　306

6.4.2　工作原理　307

6.4.3　更多信息　307

6.4.4　請參閱　307

6.5　交換名詞基數　308

6.5.1　工作方式　308

6.5.2　工作原理　309

6.5.3　請參閱　309

6.6　交換不定式短語　309

6.6.1　工作方式　309

6.6.2　工作原理　310

6.6.3　更多信息　310

6.6.4　請參閱　310

6.7　單數化複數名詞　310

6.7.1　工作方式　310

6.7.2　工作原理　311

6.7.3　請參閱　311

6.8　連結組塊變換　311

6.8.1　工作方式　311

6.8.2　工作原理　312

6.8.3　更多信息　312

6.8.4　請參閱　313

6.9　將組塊樹轉換為文本　313

6.9.1　工作方式　313

6.9.2　工作原理　314

6.9.3　更多信息　314

6.9.4　請參閱　314

6.10　平展深度樹　314

6.10.1　準備工作　315

6.10.2　工作方式　315

6.10.3　工作原理　316

6.10.4　更多信息　317

6.10.5　請參閱　318

6.11　創建淺樹　318

6.11.1　工作方式　318

6.11.2　工作原理　320

6.11.3　請參閱　320

6.12　轉換樹標籤　320

6.12.1　準備工作　320

6.12.2　工作方式　321

6.12.3　工作原理　322

6.12.4　請參閱　322

第7章　文本分類　323

7.1　引言　323

7.2　詞袋特徵提取　324

7.2.1　工作方式　324

7.2.2　工作原理　325

7.2.3　更多信息　325

7.2.4　請參閱　327

7.3　訓練樸素貝葉斯

分類器　327

7.3.1　準備工作　327

7.3.2　工作方式　328

7.3.3　工作原理　329

7.3.4　更多信息　330

7.3.5　請參閱　333

7.4　訓練決策樹分類器　334

7.4.1　工作方式　334

7.4.2　工作原理　335

7.4.3　更多信息　335

7.4.4　請參閱　337

7.5　訓練最大熵分類器　337

7.5.1　準備工作　337

7.5.2　工作方式　337

7.5.3　工作原理　338

7.5.4　更多信息　339

7.5.5　請參閱　340

7.6　訓練scikit-learn

分類器　340

7.6.1　準備工作　341

7.6.2　工作方式　341

7.6.3　工作原理　342

7.6.4　更多信息　343

7.6.5　請參閱　345

7.7　衡量分類器的精準率和

召回率　346

7.7.1　工作方式　346

7.7.2　工作原理　347

7.7.3　更多信息　348

7.7.4　請參閱　349

7.8　計算高信息量單詞　349

7.8.1　工作方式　350

7.8.2　工作原理　351

7.8.3　更多信息　352

7.8.4　請參閱　354

7.9　使用投票組合分類器　354

7.9.1　準備工作　355

7.9.2　工作方式　355

7.9.3　工作原理　356

7.9.4　請參閱　356

7.10　使用多個二元分類器

分類　357

7.10.1　準備工作　357

7.10.2　工作方式　357

7.10.3　工作原理　361

7.10.4　更多信息　362

7.10.5　請參閱　363

7.11　使用NLTK訓練器訓練

分類器　363

7.11.1　工作方式　363

7.11.2　工作原理　364

7.11.3　更多信息　365

7.11.4　請參閱　371

第8章　分散式進程和大型數據集的

處理　372

8.1　引言　372

8.2　使用execnet進行分散式

標註　372

8.2.1　準備工作　373

8.2.2　工作方式　373

8.2.3　工作原理　374

8.2.4　更多內容　375

8.2.5　請參閱　377

8.3　使用execnet進行分散式

組塊　377

8.3.1　準備工作　377

8.3.2　工作方式　377

8.3.3　工作原理　378

8.3.4　更多內容　379

8.3.5　請參閱　379

8.4　使用execnet並行處理

列表　379

8.4.1　工作方式　379

8.4.2　工作原理　380

8.4.3　更多內容　381

8.4.4　請參閱　381

8.5　在Redis中存儲頻率分布　382

8.5.1　準備工作　382

8.5.2　工作方式　382

8.5.3　工作原理　384

8.5.4　更多內容　385

8.5.5　請參閱　386

8.6　在Redis中存儲條件頻率

分布　386

8.6.1　準備工作　386

8.6.2　工作方式　386

8.6.3　工作原理　387

8.6.4　更多內容　388

8.6.5　請參閱　388

8.7　在Redis中存儲有序

字典　388

8.7.1　準備工作　388

8.7.2　工作方式　388

8.7.3　工作原理　390

8.7.4　更多內容　391

8.7.5　請參閱　392

8.8　使用Redis和execnet進行

分散式單詞評分　392

8.8.1　準備工作　392

8.8.2　工作方式　392

8.8.3　工作原理　393

8.8.4　更多內容　396

8.8.5　請參閱　396

第9章　解析特定的數據類型　397

9.1　引言　397

9.2　使用dateutil解析日期和

時間　398

9.2.1　準備工作　398

9.2.2　工作方式　398

9.2.3　工作原理　399

9.2.4　更多信息　399

9.2.5　請參閱　399

9.3　時區的查找和轉換　400

9.3.1　準備工作　400

9.3.2　工作方式　400

9.3.3　工作原理　402

9.3.4　更多信息　402

9.3.5　請參閱　403

9.4　使用lxml從HTML中提取

URL　403

9.4.1　準備工作　403

9.4.2　工作方式　403

9.4.3　工作原理　404

9.4.4　更多信息　404

9.4.5　請參閱　405

9.5　清理和剝離HTML　405

9.5.1　準備工作　405

9.5.2　工作方式　405

9.5.3　工作原理　405

9.5.4　更多信息　406

9.5.5　請參閱　406

9.6　使用BeautifulSoup轉換

HTML實體　406

9.6.1　準備工作　406

9.6.2　工作方式　406

9.6.3　工作原理　407

9.6.4　更多信息　407

9.6.5　請參閱　407

9.7　檢測和轉換字元編碼　407

9.7.1　準備工作　408

9.7.2　工作方式　408

9.7.3　工作原理　409

9.7.4　更多信息　409

9.7.5　請參閱　410

附錄A　賓州treebank詞性標籤　411

模組3　使用Python掌握自然語言處理

第　1章使用字元串　417

1.1　標記化　417

1.1.1　將文本標記為句子　418

1.1.2　其他語言文字的標記化　418

1.1.3　將句子標記為單詞　419

1.1.4　使用TreebankWordTokenizer

進行標記化　420

1.1.5　使用正則表達式進行

標記化　421

1.2　規範化　424

1.2.1　消除標點符號　424

1.2.2　轉化為小寫和大寫　425

1.2.3　處理停用詞　425

1.2.4　計算英語中的停用詞　426

1.3　替代和糾正標記　427

1.3.1　使用正則表達式替換

單詞　427

1.3.2　使用一個文本替換另一個

文本的示例　428

1.3.3　在標記化之前進行

替代　428

1.3.4　處理重複的字元　428

1.3.5　刪除重複字元的示例　429

1.3.6　使用單詞的同義詞替換

單詞　430

1.4　在文本上套用齊夫定律　431

1.5　相似性量度　431

1.5.1　使用編輯距離算法套用

相似性量度　432

1.5.2　使用傑卡德係數套用

相似性量度　434

1.5.3　使用史密斯-沃特曼算法

套用相似性量度　434

1.5.4　其他字元串相似性指標　435

1.6　本章小結　436

第　2章統計語言模型　437

2.1　單詞頻率　437

2.1.1　對給定文本進行最大

似然估計　441

2.1.2　隱馬爾可夫模型估計　448

2.2　在MLE模型上套用平滑　450

2.2.1　加一平滑法　450

2.2.2　古德-圖靈算法　451

2.2.3　聶氏估計　456

2.2.4　威滕貝爾估計　457

2.3　為MLE指定回退機制　457

2.4　套用數據插值獲得混合和

匹配　458

2.5　套用困惑度評估語言模型　458

2.6　在建模語言中套用

梅特羅波利斯-黑斯廷斯算法　459

2.7　在語言處理中套用

吉布斯採樣　459

2.8　本章小結　461

第3章　詞語形態學—試一試　462

3.1　詞語形態學　462

3.2　詞根還原器　463

3.3　詞形還原　466

3.4　開發用於非英語語言的詞根

還原器　467

3.5　詞語形態分析器　469

3.6　詞語形態生成器　471

3.7　搜尋引擎　471

3.8　本章小結　475

第4章　詞性標註—識別單詞　476

4.1　詞性標註　476

4.2　創建POS標註的語料庫　482

4.3　選擇某個機器學習算法　484

4.4　涉及n元組方法的統計建模　486

4.5　使用POS標註的語料庫開發

組塊器　491

4.6　本章小結　494

第5章　解析—分析訓練數據　495

5.1　解析　495

5.2　構建樹庫　496

5.3　從樹庫中提取上下文無關文法的

規則　501

5.4　從CFG中創建機率上下文無關的

文法　507

5.5　CYK圖解析算法　509

5.6　厄雷圖解析算法　510

5.7　本章小結　516

第6章　語義分析—意義重大　517

6.1　語義分析　517

6.1.1　NER簡介　521

6.1.2　使用隱馬爾可夫模型的

NER系統　525

6.1.3　使用機器學習工具包訓練

NER　530

6.1.4　使用POS標註的

NER　531

6.2　從Wordnet中生成同義詞集

ID　534

6.3　使用Wordnet消除歧義　537

6.4　本章小結　541

第7章　情感分析—我很高興　542

7.1　情感分析　542

7.2　使用機器學習的情感分析　548

7.3　本章小結　572

第8章　信息檢索—訪問信息　573

8.1　信息檢索　573

8.1.1　停用詞刪除　574

8.1.2　利用向量空間模型進行

信息檢索　576

8.2　向量空間評分以及與查詢

操作器互動　583

8.3　利用隱含語義索引開發IR

系統　586

8.4　文本摘要　587

8.5　問答系統　588

8.6　本章小結　589

第9章　話語分析—知識就是信仰　590

9.1　話語分析　590

9.1.1　使用定中心理論進行

話語分析　595

9.1.2　回指解析　596

9.2　本章小結　601

第　10章 NLP系統的評估—

性能分析　602

10.1　對NLP系統進行評估的

需求　602

10.1.1　NLP工具（POS標註器、

詞幹還原器和形態分析器）

的評估　603

10.1.2　使用黃金數據評估

解析器　613

10.2　IR系統的評估　614

10.3　錯誤識別的指標　614

10.4　基於辭彙匹配的指標　615

10.5　基於語法匹配的指標　619

10.6　使用淺層語義匹配的

指標　620

10.7　本章小結　621

參考書目　622

Python和NLTK自然語言處理

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條