本書是介紹大數據智慧型、人工智慧技術的科普書籍,旨在讓更多人了解和學習網際網路時代的人工智慧技術——自然語言處理技術,讓大數據智慧型技術更好地為我們服務。
基本介紹
- 書名:《大數據智慧型:數據驅動的自然語言處理技術》
- 作者:劉知遠,崔安頎 等
- ISBN:9787121375385
- 類別:計算機科學
- 頁數:368
- 定價:89
- 出版社:電子工業出版社
- 出版時間:2019.11
- 裝幀:平裝
- 開本:16
簡介,目錄,
簡介
本書是介紹大數據智慧型、人工智慧技術的科普書籍,旨在讓更多人了解和學習網際網路時代的人工智慧技術——自然語言處理技術,讓大數據智慧型技術更好地為我們服務。全書包括大數據智慧型基礎、技術和套用三部分,共14章。基礎部分有3章:第1章以深度學習為例介紹大數據智慧型的計算框架;第2章以知識圖譜為例介紹大數據智慧型的知識庫;第3章介紹大數據的計算處理系統。技術部分有6章,分別介紹機器翻譯、主題模型、情感分析與意見挖掘、智慧型問答與對話系統、個性化推薦、機器寫作。套用部分有5章,分別介紹社交商業數據挖掘、智慧醫療、智慧司法、智慧金融、計算社會科學。本書後記部分為讀者追蹤大數據智慧型的最新學術資料提供了建議。
目錄
1 深度計算——機器大腦的結構 1
1.1 驚人的深度學習 ................................................................................... 1
1.1.1 可以做優酪乳的麵包機:通用機器的概念 ................................ 2
1.1.2 連線主義 .................................................................................... 4
1.1.3 用機器設計機器 ........................................................................ 5
1.1.4 深度網路 .................................................................................... 6
1.1.5 深度學習的用武之地 ................................................................ 6
1.2 從人腦神經元到人工神經元 ............................................................... 8
1.2.1 生物神經元中的計算靈感 ........................................................ 8
1.2.2 激活函式 .................................................................................... 9
1.3 參數學習 ............................................................................................. 10
1.3.1 模型的評價 .............................................................................. 11
1.3.2 有監督學習 .............................................................................. 11
1.3.3 梯度下降法 .............................................................................. 12
1.4 多層前饋網路 ..................................................................................... 14
1.4.1 多層前饋網路 .......................................................................... 14
1.4.2 後向傳播算法計算梯度 .......................................................... 16
1.5 逐層預訓練 ......................................................................................... 17
1.6 深度學習是終極神器嗎 ..................................................................... 20
1.6.1 深度學習帶來了什麼 .............................................................. 20
1.6.2 深度學習尚未做到什麼 .......................................................... 21
1.7 內容回顧與推薦閱讀 ......................................................................... 22
1.8 參考文獻 ............................................................................................. 23
2 知識圖譜——機器大腦中的知識庫 25
2.1 什麼是知識圖譜 ................................................................................. 25
2.2 知識圖譜的構建 ................................................................................. 28
2.2.1 大規模知識庫 .......................................................................... 28
2.2.2 網際網路連結數據 ...................................................................... 29
2.2.3 網際網路網頁文本數據 .............................................................. 30
2.2.4 多數據源的知識融合 .............................................................. 31
2.3 知識圖譜的典型套用 ......................................................................... 32
2.3.1 查詢理解 .................................................................................. 32
2.3.2 自動問答 .................................................................................. 34
2.3.3 文檔表示 .................................................................................. 35
2.4 知識圖譜的主要技術 ......................................................................... 36
2.4.1 實體鏈指 .................................................................................. 36
2.4.2 關係抽取 .................................................................................. 37
2.4.3 知識推理 .................................................................................. 39
2.4.4 知識表示 .................................................................................. 40
2.5 前景與挑戰 ......................................................................................... 42
2.6 內容回顧與推薦閱讀 ......................................................................... 45
2.7 參考文獻 ............................................................................................. 45
3 大數據系統——大數據背後的支撐技術 47
3.1 大數據有多大 ..................................................................................... 47
3.2 高性能計算技術 ................................................................................. 49
3.2.1 超級計算機的組成 .................................................................. 49
3.2.2 並行計算的系統支持 .............................................................. 51
3.3 虛擬化和雲計算技術 ......................................................................... 55
3.3.1 虛擬化技術 .............................................................................. 56
3.3.2 雲計算服務 .............................................................................. 58
3.4 基於分散式計算的大數據系統 ......................................................... 59
3.4.1 Hadoop 生態系統 .................................................................... 60
3.4.2 Spark ........................................................................................ 67
3.4.3 典型的大數據基礎架構 .......................................................... 68
3.5 大規模圖計算 ..................................................................................... 69
3.5.1 分散式圖計算框架 .................................................................. 70
3.5.2 高效的單機圖計算框架 .......................................................... 71
3.6 NoSQL ................................................................................................ 72
3.6.1 NoSQL 資料庫的類別 ............................................................ 72
3.6.2 MongoDB 簡介 ........................................................................ 74
3.7 內容回顧與推薦閱讀 ......................................................................... 76
3.8 參考文獻 ............................................................................................. 77
4 主題模型——機器的智慧型摘要利器 78
4.1 由文檔到主題 ..................................................................................... 78
4.2 主題模型出現的背景 ......................................................................... 80
4.3 第一個主題模型:潛在語義分析 ..................................................... 81
4.4 第一個正式的機率主題模型 ............................................................. 84
4.5 第一個正式的貝葉斯主題模型 ......................................................... 85
4.6 LDA 的概要介紹 ................................................................................ 86
4.6.1 LDA 的延伸理解:主題模型廣義理解 ................................. 90
4.6.2 模型求解 .................................................................................. 92
4.6.3 模型評估 .................................................................................. 93
4.6.4 模型選擇:主題數目的確定 .................................................. 94
4.7 主題模型的變形與套用 ..................................................................... 95
4.7.1 基於 LDA 的變種模型 ............................................................ 95
4.7.2 基於 LDA 的典型套用 ............................................................ 97
4.7.3 基於主題模型的新浪名人話題排行榜套用 ........................ 100
4.8 內容回顧與推薦閱讀 ....................................................................... 104
4.9 參考文獻 ........................................................................................... 105
5 機器翻譯——機器如何跨越語言障礙 110
5.1 機器翻譯的意義 ............................................................................... 110
5.2 機器翻譯的發展歷史 ....................................................................... 111
5.2.1 基於規則的機器翻譯 ............................................................ 112
5.2.2 基於語料庫的機器翻譯 ........................................................ 112
5.2.3 基於神經網路的機器翻譯 .................................................... 114
5.3 經典的神經網路機器翻譯模型 ....................................................... 114
5.3.1 基於循環神經網路的神經網路機器翻譯 ............................ 114
5.3.2 從卷積序列到序列模型 ........................................................ 117
5.3.3 基於自注意力機制的 Transformer 模型 .............................. 118
5.4 機器翻譯譯文質量評價 ................................................................... 120
5.5 機器翻譯面臨的挑戰 ....................................................................... 121
5.6 參考文獻 ........................................................................................... 123
6 情感分析與意見挖掘——機器如何了解人類情感 125
6.1 情感可以計算嗎 ............................................................................... 125
6.2 哪裡需要文本情感分析 ................................................................... 126
6.2.1 情感分析的巨觀反映 ............................................................ 127
6.2.2 情感分析的微觀特徵 ............................................................ 128
6.3 情感分析的主要研究問題 ............................................................... 129
6.4 情感分析的主要方法 ....................................................................... 132
6.4.1 構成情感和觀點的基本元素 ................................................ 132
6.4.2 情感極性與情感詞典 ............................................................ 134
6.4.3 屬性-觀點對 ........................................................................ 141
6.4.4 情感極性分析 ........................................................................ 143
6.5 主要的情感分析資源 ....................................................................... 148
6.6 前景與挑戰 ....................................................................................... 149
6.7 內容回顧與推薦閱讀 ....................................................................... 150
6.8 參考文獻 ........................................................................................... 151
7 智慧型問答與對話系統——智慧型助手是如何煉成的 154
7.1 問答:圖靈測試的基本形式 ........................................................... 154
7.2 從問答到對話 ................................................................................... 155
7.2.1 對話系統的基本過程 ............................................................ 156
7.2.2 文本對話系統的常見場景 .................................................... 157
7.3 問答系統的主要組成 ....................................................................... 159
7.4 文本問答系統 ................................................................................... 161
7.4.1 問題理解 ................................................................................ 161
7.4.2 知識檢索 ................................................................................ 165
7.4.3 答案生成 ................................................................................ 169
7.5 端到端的閱讀理解問答技術 ........................................................... 169
7.5.1 什麼是閱讀理解任務 ............................................................ 170
7.5.2 閱讀理解任務的模型 ............................................................ 172
7.5.3 閱讀理解任務的其他工程技巧 ............................................ 173
7.6 社區問答系統 ................................................................................... 174
7.6.1 社區問答系統的結構 ............................................................ 174
7.6.2 相似問題檢索 ........................................................................ 175
7.6.3 答案過濾 ................................................................................ 177
7.6.4 社區問答的套用 .................................................................... 177
7.7 多媒體問答系統 ............................................................................... 179
7.8 大型問答系統案例:IBM 沃森問答系統 ...................................... 181
7.8.1 沃森的總體結構 .................................................................... 182
7.8.2 問題解析 ................................................................................ 182
7.8.3 知識儲備 ................................................................................ 183
7.8.4 檢索和候選答案生成 ............................................................ 184
7.8.5 可信答案確定 ........................................................................ 184
7.9 前景與挑戰 ....................................................................................... 186
7.10 內容回顧與推薦閱讀 ..................................................................... 186
7.11 參考文獻 ......................................................................................... 187
8 個性化推薦系統——如何了解計算機背後的他 190
8.1 什麼是推薦系統 ............................................................................... 190
8.2 推薦系統的發展歷史 ....................................................................... 191
8.2.1 推薦無處不在 ........................................................................ 192
8.2.2 從千人一面到千人千面 ........................................................ 193
8.3 個性化推薦的基本問題 ................................................................... 194
8.3.1 推薦系統的輸入 .................................................................... 194
8.3.2 推薦系統的輸出 .................................................................... 196
8.3.3 個性化推薦的基本形式 ........................................................ 197
8.3.4 推薦系統的三大核心問題 .................................................... 198
8.4 典型推薦算法淺析 ........................................................................... 199
8.4.1 推薦算法的分類 .................................................................... 199
8.4.2 典型推薦算法介紹 ................................................................ 200
8.4.3 基於矩陣分解的打分預測 .................................................... 207
8.4.4 基於神經網路的推薦算法 .................................................... 213
8.5 推薦的可解釋性 ............................................................................... 214
8.6 推薦算法的評價 ............................................................................... 217
8.6.1 評分預測的評價 .................................................................... 218
8.6.2 推薦列表的評價 .................................................................... 219
8.6.3 推薦理由的評價 .................................................................... 220
8.7 前景與挑戰:我們走了多遠 ........................................................... 221
8.7.1 推薦系統面臨的問題 ............................................................ 221
8.7.2 推薦系統的新方向 ................................................................ 223
8.8 內容回顧與推薦閱讀 ....................................................................... 225
8.9 參考文獻 ........................................................................................... 226
9 機器寫作——從分析到創造 228
9.1 什麼是機器寫作 ............................................................................... 228
9.2 藝術寫作 ........................................................................................... 229
9.2.1 機器寫詩 ................................................................................ 229
9.2.2 AI 對聯 ................................................................................... 233
9.3 當代寫作 ........................................................................................... 236
9.3.1 機器寫稿 ................................................................................ 236
9.3.2 機器故事生成 ........................................................................ 239
9.4 內容回顧 ........................................................................................... 241
9.5 參考文獻 ........................................................................................... 242
10 社交商業數據挖掘——從用戶數據挖掘到商業智慧型套用 243
10.1 社交媒體平台中的數據寶藏 ......................................................... 243
10.2 打通網路社區的束縛:用戶網路社區身份的鏈指與融合 ......... 245
10.3 揭開社交用戶的面紗:用戶畫像的構建 ..................................... 247
10.3.1 基於顯式社交屬性的構建方法 .......................................... 247
10.3.2 基於網路表示學習的構建方法 .......................................... 249
10.3.3 產品客群畫像的構建 .......................................................... 250
10.4 了解用戶的需求:用戶消費意圖的識別 ..................................... 254
10.4.1 個體消費意圖識別 .............................................................. 254
10.4.2 群體消費意圖識別 .............................................................. 256
10.5 精準的供需匹配:面向社交平台的產品推薦算法 ..................... 258
10.5.1 候選產品列表生成 .............................................................. 258
10.5.2 基於學習排序算法的推薦框架 .......................................... 259
10.5.3 基於用戶屬性的排序特徵構建 .......................................... 260
10.5.4 推薦系統的整體設計概覽 .................................................. 261
10.6 前景與挑戰 ..................................................................................... 262
10.7 內容回顧與推薦閱讀 ..................................................................... 263
10.8 參考文獻 ......................................................................................... 264
11 智慧醫療——信息技術在醫療領域套用的結晶 265
11.1 智慧醫療的起源 ............................................................................. 265
11.2 智慧醫療的廬山真面目 ................................................................. 267
11.3 智慧醫療中的人工智慧套用 ......................................................... 268
11.3.1 醫療過程中的人工智慧套用 .............................................. 268
11.3.2 醫療研究中的人工智慧套用 .............................................. 272
11.4 前景與挑戰 ..................................................................................... 273
11.5 內容回顧與推薦閱讀 ..................................................................... 275
11.6 參考文獻 ......................................................................................... 275
12 智慧司法——智慧型技術促進司法公正 276
12.1 智慧型技術與法律的碰撞 ................................................................. 276
12.2 智慧司法相關研究 ......................................................................... 277
12.2.1 法律智慧型的早期研究 .......................................................... 278
12.2.2 判決預測:虛擬法官的誕生與未來 .................................. 279
12.2.3 文書生成:司法過程簡化 .................................................. 283
12.2.4 要素提取:司法結構化 ...................................................... 285
12.2.5 類案匹配:解決一案多判 .................................................. 289
12.2.6 司法問答:讓機器理解法律 .............................................. 292
12.3 智慧司法的期望偏差與套用挑戰 ................................................. 293
12.3.1 智慧司法的期望偏差 .......................................................... 293
12.3.2 智慧司法的套用挑戰 .......................................................... 294
12.4 內容回顧與推薦閱讀 ..................................................................... 295
12.5 參考文獻 ......................................................................................... 295
13 智慧型金融——機器金融大腦 298
13.1 智慧型金融正當其時 ......................................................................... 298
13.1.1 什麼是智慧型金融 .................................................................. 298
13.1.2 智慧型金融與金融科技、網際網路金融的異同 ...................... 298
13.1.3 智慧型金融適時而生 .............................................................. 299
13.2 智慧型金融技術 ................................................................................. 301
13.2.1 大數據的機遇與挑戰 .......................................................... 301
13.2.2 智慧型金融中的自然語言處理 .............................................. 303
13.2.3 金融事理圖譜 ...................................................................... 307
13.2.4 智慧型金融中的深度學習 ...................................................... 310
13.3 智慧型金融套用 ................................................................................. 314
13.3.1 智慧型投顧 .............................................................................. 314
13.3.2 智慧型研報 .............................................................................. 315
13.3.3 智慧型客服 .............................................................................. 316
13.4 前景與挑戰 ..................................................................................... 317
13.5 內容回顧與推薦閱讀 ..................................................................... 319
13.6 參考文獻 ......................................................................................... 319
14 計算社會學——透過大數據了解人類社會 320
14.1 透過數據了解人類社會 ................................................................. 320
14.2 面向社會媒體的自然語言使用分析 ............................................. 321
14.2.1 辭彙的時空傳播與演化 ...................................................... 322
14.2.2 語言使用與個體差異 .......................................................... 325
14.2.3 語言使用與社會地位 .......................................................... 326
14.2.4 語言使用與群體分析 .......................................................... 328
14.3 面向社會媒體的自然語言分析套用 ............................................. 330
14.3.1 社會預測 .............................................................................. 330
14.3.2 霸凌現象定量分析 .............................................................. 331
14.4 未來研究的挑戰與展望 ................................................................. 332
14.5 參考文獻 ......................................................................................... 333
後記 334