Python數據預處理技術與實踐(白寧超、唐聃、文俊出版的圖書)

內容簡介

本書基礎理論和工程套用相結合，循序漸進地介紹了數據預處理的基本概念、基礎知識、工具套用和相關案例，包括網路爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等知識，書中針對每個知識點，都給出了豐富的教學實例和實現代碼，最後，通過一個新聞文本分類的實際項目講解了數據預處理技術在實際中的套用。本書的特點是幾乎涵蓋了數據預處理的各種常用技術及主流工具套用，示例代碼很豐富，適合於大數據從業者、AI技術開發人員以及高校大數據專業的學生使用。

圖書目錄

第1章概述 1

1.1Python數據預處理 1

1.1.1什麼是數據預處理 1

1.1.2為什麼要做數據預處理 2

1.1.3數據預處理的工作流程 2

1.1.4數據預處理的套用場景 3

1.2開發工具與環境 3

1.2.1Anaconda介紹與安裝 3

1.2.2SublimeText 7

1.3實戰案例：第一個中文分詞程式 12

1.3.1中文分詞 12

1.3.2實例介紹 14

1.3.3結巴實現中文分詞 14

1.4本章小結 15

第2章Python科學計算工具 16

2.1NumPy 16

2.1.1NumPy的安裝和特點 16

2.1.2NumPy數組 18

2.1.3Numpy的數學函式 20

2.1.4NumPy線性代數運算 22

2.1.5NumPyIO操作 22

2.2SciPy 23

2.2.1SciPy的安裝和特點 23

2.2.2SciPyLinalg 25

2.2.3SciPy檔案操作 27

2.2.4SciPy插值 28

2.2.5SciPyNdimage 30

2.2.6SciPy最佳化算法 33

2.3Pandas 35

2.3.1Pandas的安裝和特點 36

2.3.2Pandas的數據結構 36

2.3.3Pandas的數據統計 39

2.3.4Pandas處理丟失值 41

2.3.5Pandas處理稀疏數據 45

2.3.6Pandas的檔案操作 46

2.3.7Pandas可視化 48

2.4本章小結 54

第3章數據採集與存儲 55

3.1數據與數據採集 55

3.2數據類型與採集方法 56

3.2.1結構化數據 56

3.2.2半結構化數據 56

3.2.3非結構化數據 57

3.3網路爬蟲技術 57

Python數據預處理技術與實踐(白寧超、唐聃、文俊出版的圖書)

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條