網路爬蟲全解析：技術、原理與實踐

基本信息

網路爬蟲全解析——技術、原理與實踐

作譯者：羅剛

出版時間：2017-03

千字數：585

版次：01-01

頁數：444

開本：16開

I S B N ：9787121310713

內容簡介

本書介紹了如何開發網路爬蟲。內容主要包括開發網路爬蟲所需要的Java語法基礎和網路爬蟲的工作原理，如何使用開源組件HttpClient和爬蟲框架Crawler4j抓取網頁信息，以及針對抓取到的文本進行有效信息的提取。為了擴展抓取能力，本書介紹了實現分散式網路爬蟲的關鍵技術。另外，本書介紹了從圖像和語音等多媒體格式檔案中提取文本信息，以及如何使用大數據技術存儲抓取到的信息。最後，以實戰為例，介紹了如何抓取微信和微博，以及在電商、醫藥、金融等領域的案例套用。其中，電商領域的套用介紹了使用網路爬蟲抓取商品信息入庫到網上商店的資料庫表。醫藥領域的案例介紹了抓取PubMed醫藥論文庫。金融領域的案例介紹了抓取股票信息，以及從年報PDF文檔中提取表格等。本書適用於對開發信息採集軟體感興趣的自學者。也可以供有Java或程式設計基礎的開發人員參考。

目錄信息

第1章技術基礎 1

1.1 第一個程式 1

1.2 準備開發環境 2

1.2.1 JDK 2

1.2.2 Eclipse 3

1.3 類和對象 4

1.4 常量 5

1.5 命名規範 6

1.6 基本語法 6

1.7 條件判斷 7

1.8 循環 8

1.9 數組 9

1.10 位運算 11

1.11 枚舉類型 13

1.12 比較器 14

1.13 方法 14

1.14 集合類 15

1.14.1 動態數組 15

1.14.2 散列表 15

1.15 檔案 19

1.15.1 文本檔案 19

1.15.2 二進制檔案 23

1.16 多執行緒 27

1.16.1 基本的多執行緒 28

1.16.2 執行緒池 30

1.17 折半查找 31

1.18 處理圖片 34

1.19 本章小結 35

第2章網路爬蟲入門 36

2.1 獲取信息 36

2.1.1 提取連結 37

2.1.2 採集新聞 37

2.2 各種網路爬蟲 38

2.2.1 信息採集器 40

2.2.2 廣度優先遍歷 41

2.2.3 分散式爬蟲 42

2.3 爬蟲相關協定 43

2.3.1 網站地圖 44

2.3.2 Robots協定 45

2.4 爬蟲架構 48

2.4.1 基本架構 48

2.4.2 分散式爬蟲架構 51

2.4.3 垂直爬蟲架構 54

網路爬蟲全解析：技術、原理與實踐

基本介紹

基本信息

內容簡介

目錄信息

相關詞條

熱門詞條