Python數據預處理技術與實踐(清華大學出版社出版的書籍)

內容簡介

本書基礎理論和工程套用相結合，循序漸進地介紹了數據預處理的基本概念、基礎知識、工具套用和相關案例，包括網路爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等知識，書中針對每個知識點，都給出了豐富的教學實例和實現代碼，最後，通過一個新聞文本分類的實際項目講解了數據預處理技術在實際中的套用。本書的特點是幾乎涵蓋了數據預處理的各種常用技術及主流工具套用，示例代碼很豐富，適合於大數據從業者、AI技術開發人員以及高校大數據專業的學生使用。

作者簡介

白寧超，大數據工程師，現任職於四川省計算機研究院，研究方向包括數據分析、自然語言處理和深度學習。主持和參與國家自然基金項目和四川省科技支撐計畫項目多項，出版專著1部。

唐聃，教授，碩士生導師，成都信息工程大學軟體工程學院院長，四川省學術和技術帶頭人後備人選。研究方向包括編碼理論與人工智慧，《自然語言處理理論與實戰》一書作者。

文俊，碩士，大數據算法工程師，現任職於成都廣播電視台橙視傳媒大數據中心。曾以技術總監身份主持研發多個商業項目，負責公司核心算法模型構建。主要研究方向包括數據挖掘、自然語言處理、深度學習及雲計算。

圖書目錄

第1章概述 1

1.1 Python數據預處理 1

1.1.1 什麼是數據預處理 1

1.1.2 為什麼要做數據預處理 2

1.1.3 數據預處理的工作流程 2

1.1.4 數據預處理的套用場景 3

1.2 開發工具與環境 3

1.2.1 Anaconda介紹與安裝 3

1.2.2 Sublime Text 7

1.3 實戰案例：第一個中文分詞程式 12

1.3.1 中文分詞 12

1.3.2 實例介紹 14

1.3.3 結巴實現中文分詞 14

1.4 本章小結 15

第2章 Python科學計算工具 16

2.1 NumPy 16

2.1.1 NumPy的安裝和特點 16

2.1.2 NumPy數組 18

2.1.3 Numpy的數學函式 20

2.1.4 NumPy線性代數運算 22

2.1.5 NumPy IO操作 22

2.2 SciPy 23

2.2.1 SciPy的安裝和特點 23

2.2.2 SciPy Linalg 25

2.2.3 SciPy檔案操作 27

2.2.4 SciPy 插值 28

Python數據預處理技術與實踐(清華大學出版社出版的書籍)

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條