盒形圖

盒形圖

箱形圖英文:Box plot),又稱為盒須圖盒式圖盒狀圖箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。在各種領域也經常被使用,常見於品質管理。不過作法相對較繁瑣。

箱形圖於1977年由美國著名統計學家約翰·圖基(John Tukey)發明。它能顯示出一組數據的最大值最小值中位數、及上下四分位數。

基本介紹

  • 中文名:盒形圖
  • 外文名:box plot
  • 解釋:定量變數所常用的圖形之一
  • 別名:箱圖
統計圖形,盒形圖的功能,盒形圖的局限,

統計圖形

統計圖形,又稱為統計圖統計學圖形圖解方法圖解技術圖解分析方法圖解分析技術,是指統計學領域當中用於可視化定量數據信息圖形。有時,人們也把統計圖形與各種統計學表格統稱為統計圖表統計學圖表
統計學數據分析過程可大致分為兩個組成部分:定量分析方法(Quantitative techniques)和圖解分析方法(graphical techniques)。定量分析方法是指那套產生數值型或表格型輸出的統計學操作程式;比如,包括假設檢驗方差分析點估計可信區間以及最小二乘法回歸分析。這些手段以及與此類似的其他技術方法全都頗具價值,屬於是經典分析方面的主流。
另一方面,還有一大套我們一般稱之為圖解分析方法的統計學工具。這些工具包括散點圖直方圖、機率圖、殘差圖(residual plot)、箱形圖、塊圖以及雙標圖。探索性數據分析(Exploratory data analysis,EDA)就密切地依賴於這些手段以及與此類似的其他技術方法。圖解分析操作程式不僅僅是在EDA背景下才使用的工具;在檢驗假設、模型選擇、統計模型驗證、估計量(estimator)選擇、關係確定、因素效應判定以及離群值檢出方面,此類圖解分析工具還可以作為最佳捷徑,用來深入認識數據集。此外,優質的統計圖形還可以作為一種令人信服的溝通手段,用來向他人傳達存在於數據之中的基本訊息。
圖解式統計學方法具有四個方面的目標:⑴ 探究數據集的內容;⑵ 用於發現數據之中的結構;⑶ 檢查統計學模型之中的假設;⑷ 溝通傳達分析結果。
如果不採用統計圖形,也就會喪失深入認識數據基礎結構之一個或多個方面的機會。

盒形圖的功能

盒形圖作為描述統計的工具之一,其功能有獨特之處,主要有以下幾點:
1.直觀明了地識別數據批中的異常值
一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成為發現問題進而改進決策的契機。盒形圖為我們提供了識別異常值的一個標準:異常值被定義為小於Q1-1.5IQR或大於Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源於經驗判斷,經驗表明它在處理需要特別注意的數據方面表現不錯。這與識別異常值的經典方法有些不同。
2.利用盒形圖判斷數據批的偏態和尾重
比較標準常態分配、不同自由度的t分布和非對稱分布數據的盒形圖的特徵,可以發現:對於標準常態分配的大樣本,只有 0.7%的值是異常值,中位數位於上下四分位數的中央,盒形圖的方盒關於中位線對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的機率觀察到異常值。
3.利用盒形圖比較幾批數據的形狀
同一數軸上,幾批數據的盒形圖並行排列,幾批數據的中位數、尾長、異常值、分布區間等形狀信息便昭然若揭。在一批數據中,哪幾個數據點出類拔萃,哪些數據點表現不及一般,這些數據點放在同類其它群體中處於什麼位置,可以通過比較各盒形圖的異常值看出。各批數據的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。每批數據分布的偏態如何,分析中位線和異常值的位置也可估計出來。還有一些盒形圖的變種,使數據批間的更加直觀明白。

盒形圖的局限

  1. 不能提供關於數據分布偏態和尾重程度的精確度量。
  2. 對於批量比較大的數據批,反應的形狀信息更加模糊。
  3. 用中位數代表總體評價水平有一定的局限性。

相關詞條

熱門詞條

聯絡我們