《實體識別技術》是2017年機械工業出版社出版的圖書,由申德榮、寇月、聶鐵錚、於戈等編著。
基本介紹
- 書名:實體識別技術
- 作者:申德榮 寇 月 聶鐵錚 於 戈 等編著
- ISBN:978-7-111-58161-1
- 定價:¥69.00
- 出版社:機械工業出版社
- 出版時間:2017-11
- 開本:16
基本信息
作者:申德榮 寇 月 聶鐵錚 於 戈 等編著 |
ISBN(書號):978-7-111-58161-1 |
叢書名:大數據管理叢書 |
出版日期:2017-11 |
版次:1/1 |
開本:16 |
定價:¥69.00 |
內容簡介
更新的需求而策劃組織的,旨在為學術研究和人才培養提供可供參考的“基石”。
叢書內容涵蓋大數據管理的理論、方法、技術等諸多方面,選題面向技術熱點,
彌補現有知識體系的漏洞和不足,力圖為現有的數據管理知識查漏補缺,聚少成多,
最終形成適應大數據技術發展和人才培養的知識體系和教材基礎。叢書主編是中國人民大學孟小峰教授。
前言
第1章 概述1
1.1 實體識別問題的提出1
1.2 實體識別研究的發展歷史2
1.3 實體識別問題的描述4
1.4 實體識別的處理流程6
1.5 實體識別的挑戰6
1.5.1 相似度衡量問題7
1.5.2 計算效率問題7
1.5.3 機器學習方法的套用問題8
1.5.4 關聯對象的識別問題8
1.5.5 一些新的挑戰9
1.5.6 實體識別評估10
1.6 實體識別的套用10
1.6.1 醫療衛生10
1.6.2 人口普查11
1.6.3 客戶關係管理12
1.6.4 網購比價13
1.6.5 犯罪及欺詐偵查13
1.6.6 關聯的開放數據14
1.6.7 引文資料庫15
1.7 本章小結17
參考文獻17
第2章 相似度計算算法22
2.1 基於欄位的相似度算法22
2.1.1 Jaccard相似度算法22
2.1.2 基於TF-IDF的相似度算法23
2.1.3 基於q-grams的相似度算法24
2.2 基於編輯距離的相似度算法25
2.2.1 Levenshtein距離算法25
2.2.2 Jaro和Jaro-Winkler距離算法26
2.3 混合的相似度算法27
2.3.1 擴展的Jaccard相似度算法27
2.3.2 Monge-Elkan相似度算法29
2.3.3 Soft TF-IDF相似度算法29
2.4 數值型數據相似度算法31
2.4.1 數字型相似度算法31
2.4.2 日期型相似度算法32
2.4.3 價格型相似度算法32
2.5 本章小結33
參考文獻33
第3章 實體識別的分塊技術35
3.1 引言35
3.1.1 數據分塊技術的套用35
3.1.2 實體識別數據分塊問題定義與算法分類38
3.2 分塊鍵39
3.2.1 分塊鍵的定義39
3.2.2 分塊鍵的編碼44
3.3 基於等值匹配的分塊算法45
3.3.1 標準分塊方法46
3.3.2 基於學習的分塊鍵定義48
3.4 基於相似性的分塊算法50
3.4.1 基於排序的分塊方法51
3.4.2 基於字元串分割的分塊方法54
3.4.3 基於MinHash的分塊方法58
3.4.4 基於Canopy聚類的分塊方法61
3.4.5 基於前綴過濾的分塊方法64
3.5 本章小結69
參考文獻69
第4章 基於機器學習的實體識別方法72
4.1 基於分類器的實體識別方法72
4.1.1 基於決策樹的實體識別方法73
4.1.2 基於貝葉斯分類器的實體識別方法76
4.1.3 基於SVM的實體識別方法79
4.1.4 基於主動學習的實體識別方法84
4.1.5 其他方法87
4.2 基於機率圖模型的實體識別方法88
4.2.1 基於馬爾可夫邏輯網路的實體識別方法89
4.2.2 基於條件隨機場的實體識別方法93
4.3 本章小結97
參考文獻97
第5章 基於關係的實體識別方法100
5.1 引言100
5.2 聯合式實體識別方法101
5.2.1 基於關係聚類的聯合式實體識別方法102
5.2.2 複雜信息空間中的聯合式實體識別方法108
5.3 基於實體關係的消歧方法118
5.3.1 基於社交關係的名字消歧方法119
5.3.2 基於實體關係的實體消歧方法122
5.3.3 基於異構實體關係的實體消歧方法133
5.4 本章小結140
參考文獻141
第6章 新型的實體識別技術143
6.1 引言143
6.2 基於時間模型的實體識別技術144
6.2.1 一個實例145
6.2.2 時間模型146
6.2.3 基於時間模型的實體識別算法161
6.3 基於眾包的實體識別技術170
6.3.1 一個實例171
6.3.2 基於眾包的實體識別框架172
6.3.3 基於眾包的實體識別的核心問題174
6.3.4 基於眾包的實體識別方法的特點177
6.4 隱私保護下的實體識別技術178
6.4.1 實體匹配中隱私保護的分類179
6.4.2 實體識別隱私保護算法的評估182
6.5 本章小結184
參考文獻184
第7章 實體識別評估187
7.1 基於記錄對的精確性評價——準確率、召回率和F測度187
7.2 分塊技術評價189
7.3 常用數據集190
7.3.1 真實數據集190
7.3.2 數據生成工具191
7.4 本章小結192
參考文獻192
第8章 總結與展望193
8.1 實體識別研究總結193
8.2 新型實體識別研究展望195
8.2.1 基於時間模型的實體識別195
8.2.2 基於眾包的實體識別196
8.2.3 隱私保護下的實體識別197
8.3 研究挑戰198