《實戰情報大數據》是清華大學出版社於2021年出版的書籍。
基本介紹
- 中文名:實戰情報大數據
- 作者:鄧勁生 黃金鋒 黎珍
- 出版社:清華大學出版社
- 出版時間:2021年1月1日
- 定價:59.8 元
- ISBN:9787302567080
內容簡介,目錄,
內容簡介
過大數據手段蒐集挖掘情報信息,已成為國際上各個專業情報領域的重要手段。本書選取多個具有代表性的情報大數據領域,圍繞大數據背景下情報的信息採集、儲存、管理和分析等方面,從技術實現途徑進行全方位詳解,以學習掌握在海量數據中提煉出高價值情報的方法。 本書以網路輿論情報、社會事件情報、國防科技情報、公共安全情報、開源人物情報等領域為實戰案例
目錄
第1章情報大數據概述1
1.1大數據方法對情報的顛覆性影響1
1.1.1大數據時代的情報新特點1
1.1.2大數據時代情報工作新思維4
1.1.3情報大數據的分析流程6
1.2“稜鏡”計畫案例簡介6
1.2.1數據基礎7
1.2.2情報分析9
1.2.3情報目標10
1.3情報大數據平台常用框架11
1.3.1數據源採集12
1.3.2大數據預處理13
1.3.3大數據存儲14
1.3.4大數據分析與挖掘14
1.3.5常見技術框架和工具16
1.3.6學習階段建議19
第2章網路輿論情報大數據採集與分析21
2.1總體設計21
2.1.1需求分析21
2.1.2技術選型22
2.1.3框架軟體23
2.1.4開發流程24
2.2實戰環境搭建24
2.2.1準備作業系統環境24
2.2.2搭建Hadoop平台27
2.2.3數據採集工具Flume30
2.2.4數據倉庫Hive32
2.2.5數據導入導出工具Sqoop34
2.2.6配置資料庫MySQL35
2.3業務開發37
2.3.1數據採集與上傳至HDFS37
2.3.2數據存儲在Hive40
2.3.3Sqoop導出數據到MySQL41
2.3.4數據導成表格43
2.4可視化分析44
2.4.1熱門關鍵字詞雲44
2.4.2熱門關鍵字詞頻48
第3章社會事件情報關聯與可視化分析53
3.1總體設計53
3.1.1功能結構53
3.1.2業務流程54
3.1.3資料庫設計54
3.1.4資料庫選型59
3.2實戰環境搭建60
3.2.1安裝ClickHouse60
3.2.2配置ClickHouse61
3.2.3創建ClickHouse庫表64
3.2.4數據導入ClickHouse68
3.3業務開發71
3.3.1創建開源情報採集庫表72
3.3.2定時更新Gdelt記錄73
3.3.3下載gdeltv2檔案75
3.3.4數據導入ClickHouse78
3.4可視化分析86
3.4.1國家/地區互動網路構建87
3.4.2西方媒體對中國的情感分析89
3.4.3全球人物熱點分析93
3.4.4全球組織關係熱點分析95
3.4.5全球熱點主題分析97
3.4.6抗議性事件情況分析100
第4章開源人物情報社會網路構建103
4.1總體設計103
4.1.1需求分析103
4.1.2功能結構104
4.1.3業務流程104
4.1.4數據對象建模104
4.1.5技術選型105
4.2實戰環境搭建106
4.2.1部署Neo4j106
4.2.2安裝py2neo模組109
4.2.3安裝scrapy模組110
4.3業務開發111
4.3.1使用scrapy模組爬取開源人物情報數據112
4.3.2使用SPARQL語句查詢人物117
4.3.3爬取已定義的所有關係118
4.3.4爬取人物實體信息及關係124
4.3.5提取親屬信息131
4.3.6通過工具導入批量數據132
4.3.7利用py2neo模組導入數據136
4.4可視化分析142
4.4.1通過人物屬性值查找節點142
4.4.2通過人物屬性值查找相關聯的節點142
4.4.3監測時任美國總統羅斯福的親屬關係144
4.4.4查詢時任美國總統約翰·甘迺迪的校友關係144
4.4.5分析往屆美國總統的死亡原因146
第5章用戶行為情報分析及個性化推薦149
5.1總體設計149
5.1.1需求分析149
5.1.2技術選型150
5.1.3技術分析152
5.1.4開發流程153
5.2實戰環境搭建153
5.2.1搭建Scala環境154
5.2.2搭建Spark平台155
5.2.3安裝Maven159
5.2.4搭建IDEA集成開發工具160
5.3業務開發166
5.3.1用戶視頻行為數據集166
5.3.2個性化視頻推薦166
5.3.3個性化推薦結果分析169
5.4可視化分析170
5.4.1觀影人員評價總體分析171
5.4.2觀影人員年齡段分布172
5.4.3觀影人員職業分布174
5.4.4視頻類型標籤分析176
第6章科技動態情報大數據搜尋最佳化179
6.1總體設計179
6.1.1需求分析179
6.1.2技術選型180
6.1.3資料庫設計180
6.2實戰環境搭建181
6.2.1搭建Elasticsearch環境181
6.2.2Elasticsearch集成中文分詞器182
6.2.3Elasticsearch集成拼音分詞器182
6.2.4搭建SpringBoot套用框架183
6.2.5SpringBoot集成MySQL資料庫184
6.2.6SpringBoot集成Elasticsearch搜尋引擎186
6.3業務開發188
6.3.1科技新聞爬蟲模組188
6.3.2搜尋引擎實現190
6.3.3Elasticsearch搜尋最佳化195
6.4日誌可視化197
6.4.1搭建Kibana環境197
6.4.2搭建Logstash環境198
6.4.3日誌可視化分析200
6.5可視化分析202
6.5.1靜態資源準備202
6.5.2後台管理頁集成202
6.5.3新聞列表頁集成206
6.5.4靜態頁面最佳化207
第7章視頻圖像情報深度學習車牌識別209
7.1總體設計209
7.1.1需求分析209
7.1.2技術分析210
7.1.3開發流程211
7.2實戰環境搭建211
7.2.1人工神經網路庫Keras212
7.2.2數值計算擴展NumPy212
7.2.3Python庫Theano213
7.2.4安裝Sklearn213
7.2.5安裝OpenCV213
7.3業務開發215
7.3.1卷積神經網路215
7.3.2車牌定位與截取222
7.3.3車牌號碼識別232
第8章公共衛生情報可視化態勢展示237
8.1總體設計237
8.1.1技術選型237
8.1.2技術分析238
8.1.3資料庫設計238
8.2實戰環境搭建239
8.2.1搭建Zookeeper環境239
8.2.2搭建Kafka環境240
8.2.3搭建Elasticsearch+MySQL環境241
8.2.4後端框架搭建241
8.3業務開發242
8.3.1請求疫情接口數據242
8.3.2發布數據到Kafka244
8.3.3整合MySQL和Elasticsearch245
8.3.4數據持久化247
8.4可視化分析250
8.4.1印度疫情發展趨勢折線圖252
8.4.2印度疫情發展趨勢柱狀圖254
8.4.3歐洲疫情南丁格爾玫瑰圖255
參考文獻259