pandas數據預處理詳解

《pandas數據預處理詳解》是2021年水利水電出版社出版的圖書。

基本介紹

  • 中文名:pandas數據預處理詳解
  • 出版時間:2021年11月
  • 出版社:水利水電出版社
  • ISBN:9787517098980
內容簡介,圖書目錄,作者簡介,

內容簡介

Python 因其擁有強大的第三方軟體庫,廣泛套用在人工智慧開發、科學計算和數據分析中。而 pandas 就是一款基於 NumPy 的解決 Python 數據分析任務的軟體庫。在機器學習和數據科學中,因為很少有數據可以直接使用,所以對數據進行預處理就成為必不可少的工作。《Pandas 數據預處理詳解》就利用數據處理必需的 pandas 庫,從 pandas 基本操作、數據結構,到 pandas 將執行的各種任務,如匯總統計信息、檢查缺失值 / 異常值 / 重複數據以及合併和分組數據等,通過簡單易懂的示例,對預處理的基礎知識和各種預處理方法進行了透徹講解。學完本書,讀者將能夠順利執行各種機器學習和數據分析任務。特別適合作為機器學習工程師、數據科學及科研工作者初學數據預處理的參考書,也適合作為案頭手冊,隨時翻閱查看。

圖書目錄

第1章pandas 的概要與 Python 的基本操作
1.1 機器學習領域中的剛需庫——pandas
1.1.1 何謂 pandas
1.1.2 pandas 的主要功能
1.2 構建pandas的使用環境
1.2.1 三種構建環境下的工具包和軟體
1.2.2 在Windows 作業系統中構建
1.2.3 在macOS中安裝程式
1.2.4 Google Colab 平台
1.3 Python的數據結構
1.3.1 為何在機器學習中使用 Python.
1.3.2 變數
1.3.3 運算符
1.3.4 動態類型
1.3.5 數值類型
1.3.6 字元串類型
1.3.7 元組
1.3.8 列表
1.3.9 字典
1.3.10 集合
1.4 Python 的基本操作
1.4.1 if語句
1.4.2 while 語句
1.4.3for 語句
1.4.4 break 語句與 continue
1.4.5 語句函式
1.5 Jupyter Notebook 的基本操作
1.5.1 代碼補全功能
1.5.2 對象類型信息查看
1.5.3 魔法命令
第2章 pandas的數據結構
2.1 Series
2.1.1 Series的概要
2.1.2 Series 的基本操作
2.2 DataFrame 對象
2.2.1 DataFrame 對象的概要
2.2.2 DataFrame 的基本操作
2.3 索引
2.3.1 索引的概要
2.3.2 索引的基本操作
2.4 pandas的初次接觸
2.4.1 數據集的概要
2.4.2 數據的讀入
2.4.3 數據的顯示
2.4.4 數據的引用
2.4.5 數據的排序
2.4.6 缺失數據的處理
2.4.7 數據的分組
2.4.8 數據的合併
2.4.9 數據的可視化
第3章 數據的引用與讀取
3.1 數據的引用
3.1.1 引用數據的方法
3.1.2 切片
3.1.3 屬性的引用
3.1.4 bool 類型的引用.
3.1.5 where 方法
3.1.6 query 方法
3.2 檔案的讀取與寫入
3.2.1CSV
3.2.2Excel
3.2.3JSON
3.2 4HDF5
第4章數據的聚合與排序
4.1 數據的聚合
4.1.1 最小值與最大值
4.1.2 平均值、中位數和眾數
4.1.3 標準差
4.1.4 分位數
4.1.5 累積和與累積積
4.1.6 分箱處理
4.1.7 概括統計量
4.1.8 數據透視表
4.1.9 交叉表
4.2 數據的排序
4.2.1 基於標籤的排序
4.2.2 基於元素的排序
第5章數據變形
5.1行和列的添加與刪除
5.1.1 添加行和列
5.1.2 刪除行和列
52 數據的連線與合併
5.2.1 concat 函式
5.2.2 merge 函式
5.3 其他的數據變形
5.3.1 隨機抽樣
5.3.2 虛擬變數
5.3.3 長型數據和寬型數據的變形
第6章缺失值、離群值和重複數據
6.1 缺失值
6.1.1 pandas與缺失數據
61.2 缺失值的確認
6.1.3 缺失值的刪除
61.4 缺失值的置換
6.2 離群值
6.2.1 何謂離群值
6.2.2 z分數
6.2.3 四分位距
6.2.4 箱形圖
6.3 重複數據
6.3.1 重複數據的檢測
6.3.2 重複數據的刪除
第7章 函式套用與分組化
7.1 函式處理.
7.1.1apply方法
7.1.2 DataFrame 類和Series 類的agg方法
7.1.3 applymap 方法
7.1.4pipe 方法
7.2 基於 for 語句的循環處理
7.2.1 Series 對象的循環處理
7.2.2 DataFrame 對象的循環處理
7.3 數據的分組
7.3.1 GroupBy 對象
7.3.2 GroupBy 對象的agg方法.
7.3.3 transform 方法
7.3.4apply方法
第8章 其他操作
8.1 字元串操作
8.1.1str 屬性
8.1.2 字元串的分割
8.1.3 字元串的替換
8.1.4 字元串的提取
8.1.5 字元串的模式匹配
8.1.6 從字元串到虛擬變數
8.2 數據的可視化
8.2.1 plot方法
8.2.2 條形圖
8.2.3 直方圖
8.2.4 散點圖
8.2.5 餅形圖
8.2.6 箱形圖
8.2.7 散點圖矩陣
8.2.8 缺失值的處理
8.3 多重索引
8.3.1 多重索引的基本操作
8.3.2 多重索引的統計
8.3.3 多重索引的連線與合併
8.4 時間序列數據
8.4.1 datetime 模組
8.4.2 處理pandas 時間序列數據的對象
8.4.3 時間序列數據的索引引用
8.4.4 時間序列數據的轉換
第9章 數據分析的基礎
9.1 探索性數據分析
9.1.1 數據結構的確認
9.1.2 缺失值、離群值和重複數據的確認
9.1.3 基於數據可視化的確認
9.2 整齊數據
9.2.1 整齊數據的概要
9.2.2 將雜亂數據轉換成整齊數據
9.3 數據分析實例——基於Bank Marketing 數據集
9.3.1 數據集的概要和數據結構
9.3.2 數據的基本信息
9.3.3 客戶數據分析
9.3.4 行銷活動數據分析

作者簡介

Lombard 增田 秀人Lombard公司AI戰略室 室長 先後在舊金山和東南亞創業,於2017年創建了機器學習學校"codexa"。企業培訓講師,曾在xPython Meet Up &Conference 2019發表演講。

相關詞條

熱門詞條

聯絡我們