概述 統計學 與
數據分析 過程可大致分為兩個組成部分:定量分析方法(Quantitative techniques)和圖解分析方法(graphical techniques)。定量分析方法是指那套產生數值型或表格型輸出的統計學操作程式;比如,包括假設檢驗、方差分析、
點估計 、可信區間以及最小二乘法回歸分析。這些手段以及與此類似的其他技術方法全都頗具價值,屬於是經典分析方面的主流。
另一方面,還有一大套我們一般稱之為圖解分析方法的統計學工具。這些工具包括散點圖、直方圖、機率圖、殘差圖(residual plot)、箱形圖、塊圖以及雙標圖。探索性數據分析(Exploratory data analysis,EDA)就密切地依賴於這些手段以及與此類似的其他技術方法。圖解分析操作程式不僅僅是在EDA背景下才使用的工具;在檢驗假設、模型選擇、統計模型驗證、估計量(estimator)選擇、關係確定、因素效應判定以及
離群值 檢出方面,此類圖解分析工具還可以作為最佳捷徑,用來深入認識數據集。此外,優質的統計圖形還可以作為一種令人信服的溝通手段,用來向他人傳達存在於數據之中的基本訊息。
圖解式統計學方法具有四個方面的目標:⑴ 探究
數據集 的內容;⑵ 用於發現數據之中的結構;⑶ 檢查統計學模型之中的假設;⑷ 溝通傳達分析結果。
如果不採用統計圖形,也就會喪失深入認識數據基礎結構之一個或多個方面的機會。
歷史 統計圖形的起源可以追溯到人們最早試圖分析數據的活動,而如今這種技術方法已經成為
科學 發展的關鍵手段之一。早在十八世紀,人們就採用了許多為我們當前所熟悉的統計製圖手段和形式,如二維地圖、示意地圖、條圖以及
坐標紙 。人們對於下列四個問題的關注推動了統計圖形技術方法的發展:
十七世紀和十八世紀期間的空間組織問題
十八世紀期間和十九世紀早期的離散比較問題
十九世紀期間的連續分布問題
十九世紀和二十世紀期間的多變數分布與相關問題
自1970年代以來,隨著
計算機圖形學 及其相關技術方法的復興,統計圖形目前已經東山再起,再度成為一種重要的分析工具。
簡介 統計圖是利用點、線、面、體等繪製成幾何圖形,以表示各種數量間的關係及其變動情況的工具。表現統計數字大小和變動的各種圖形總稱。其中有
條形統計圖 、
扇形統計圖 、
折線 統計圖、象形圖等。在統計學中把利用統計圖形表現統計資料的方法叫做統計圖示法。其特點是:形象具體、簡明生動、
通俗易懂 、
一目了然 。其主要用途有:表示現象間的對比關係;揭露總體結構;檢查計畫的執行情況;揭示現象間的依存關係,反映
總體單位 的分配情況;說明現象在空間上的分布情況。一般採用
直角坐標系 .
橫坐標 用來表示事物的組別或自變數x,縱坐標常用來表示事物出現的次數或
因變數 y;或採用角度坐標(如圓形圖)、地理坐標(如地形圖)等。按圖尺的數字性質分類,有實數圖、累積數圖、
百分數 圖、對數圖、指數圖等;其結構包括圖名、圖目(圖中的標題)、圖尺(坐標單位)、各種圖線(基線、輪廓線、指導線等)、圖注(圖例說明、資料來源等)等。
統計圖 基本用途 基本類型 (1)條圖:又稱
直條圖 ,表示獨立指標在不同階段的情況,有兩維或多維,圖例位於右上方。
(2)百分條圖和圓圖:描述百分比(構成比)的大小,用顏色或各種圖形將不同比例表達出來。
(3)線圖:用線條的升降表示事物的發展變化趨勢,主要用於
計量資料 ,描述兩個變數間關係。
(4)
半對數線圖 :縱軸用對數尺度,描述一組連續性資料的變化速度及趨勢。
條形圖 用一個單位長度(如1厘米)表示一定的數量,根據數量的多少,畫成長短相應成比例的直條,並按一定順序排列起來,這樣的統計圖,稱為條形統計圖。條形統計圖可以清楚地表明各種數量的多少。
條形圖 是統計圖資料分析中最常用的圖形。按照排列方式的不同,可分為縱式條形圖和
橫式 條形圖;按照分析作用的不同,可分為條形比較圖和條形結構圖。
(1)能夠使人們一眼看出各個數據的大小。
(2)易於比較數據之間的差別。
(3)能清楚的表示出數量的多少。
扇形圖 以一個圓的面積表示事物的總體,以
扇形 面積表示占總體的
百分數 的統計圖,叫作扇形統計圖。也叫作百分數比較圖。扇形統計圖可以比較清楚地反映出部分與部分、部分與整體之間的數量關係。
(1)用扇形的面積表示部分在總體中所占的百分比。
(2)易於顯示每組數據相對於總數的大小。
折線圖 以
折線 的上升或下降來表示統計數量的增減變化的統計圖,叫作折線統計圖。與
條形統計圖 比較,折線統計圖不僅可以表示數量的多少,而且可以反映同一事物在不同時間裡的發展變化的情況。
折線圖 在生活中運用的非常普遍,雖然它不直接給出精確的數據,但只要掌握了一定的技巧,熟練運用“坐標法”也可以很快地確定某個具體的數據。
折線統計圖 折線統計圖的特點: (1)能夠顯示數據的變化趨勢,反映事物的變化情況。
網狀圖 網狀統計圖的特點是:
母代表的意義,在具體的答題過程中就可以脫離字母,較簡便找出答案。
統計圖的意義:
表示現象間的對比關係;揭露總體結構;檢查計畫的執行情況;揭示現象間的依存關係,反映總體單位的分配情況;說明現象在空間上的分布情況。
莖葉統計圖 莖葉圖 又稱“枝葉圖”,它的思路是將
數組 中的數按
位數 進行比較,將數的大小基本不變或變化不大的位作為一個主幹(莖),將變化大的位的數作為分枝(葉),列在主幹的後面,這樣就可以清楚地看到每個主幹後面的幾個數,每個數具體是多少。
莖葉圖有三列數:左邊的一列數
統計數 ,它是上(或下)向中心累積的值,中心的數(帶括弧)表示最多數組的個數;中間的一列表示莖,也就是變化不大的位數;右邊的是數組中的變化位,它是按照一定的間隔將數組中的每個變化的數一一列出來,象一條枝上抽出的葉子一樣,所以人們形象地叫它莖葉圖。
莖葉圖是一個與直方圖相類似的特殊工具,但又與直方圖不同,莖葉圖保留
原始資料 的資訊,直方圖則失去原始資料的訊息。將
莖葉圖 莖和葉逆時針方向旋轉90度,實際上就是一個直方圖,可以從中統計出次數,計算出各數據段的頻率或百分比。從而可以看出分布是否與
常態分配 或單峰
偏態分布 逼近。
莖葉圖在質量管理上用途與直方圖差不多,但它通常是作為更細緻的分析階段使用。由於它是用數字組成直方圖,所以在做的時候比直方圖時,通常我們常使用專業的軟體進行繪製。
莖葉圖的特徵
1、用莖葉圖表示數據有兩個優點:一是從統計圖上沒有原始數據信息的損失,所有數據信息都可以從莖葉圖中得到;二是莖葉圖中的數據可以隨時記錄,隨時添加,方便記錄與表示。
2、
莖葉圖 只便於表示兩位
有效數字 的數據,而且莖葉圖只方便記錄兩組的數據,兩個以上的數據雖然能夠記錄,但是沒有表示兩個記錄那么直觀、清晰。
統計圖的意義:
表示現象間的對比關係;揭露總體結構;檢查計畫的執行情況;揭示現象間的依存關係,反映總體單位的分配情況;說明現象在空間上的分布情況。
網狀統計圖的特點是這類統計圖中只有一些字母,字母所代表的意義都在題外,在答題前必弄清這些字母代表的意義,在具體的答題過程中就可以脫離字母,較簡便地得出答案。
統計表是由縱橫交叉線條所繪製的表格來表現統計資料的一種形式.
根據《中國國小教學百科全書》介紹,它是用原始數據製成的一種表格.為了實際需要,人們常常要把工農業生產、科學技術和日常工作中所得到的相互關聯的數據,按照一定的要求進行整理、歸類,並按照一定的順序把數據排列起來,製成表格,這種表格叫做統計表.
它的作用是:①用數量說明研究對象之間的相互關係.②用數量把研究對象之間的變化規律顯著地表示出來.③用數量把研究對象之間的差別顯著地表示出來.這樣便於人們用來分析問題和研究問題.
統計表 的形式繁簡不一,通常按項目的多少,分為
單式統計表 和
複式統計表 兩種.只對某一個項目的數據進行統計的表格,叫做單式統計表,也叫做簡單統計表.統計項目在兩個或兩個以上的統計表格,叫做複式統計表.
統計表的內容一般都包括總標題、橫標題、縱標題、數字資料、單位、制表日期.總標題是指表的名稱,它要能簡單扼要地反映出表的主要內容,橫標題是指每一橫行內數據的意義;縱標題是指每一縱欄內數據的意義;數字資料是指各空格內按要求填寫的數字;單位是指表格里數據的計量單位.在數據單位相同時,一般把單位放在表格的左上角.如果各項目的數據單位不同時,可放在表格里註明.制表日期放在表的右上角,表明制表的時間.各種統計表都應有“備考”或“附註”欄,以便必要時填入不屬於表內各項的事實或說明.
直方圖 直方圖(Histogram)又稱
柱狀圖 、
質量分布圖 。是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分布的情況。 一般用
橫軸 表示數據類型,縱軸表示分布情況。直方圖法的涵義
在質量管理中,如何預測並監控產品質量狀況?如何對質量波動進行分析?直方圖就是一目了然地把
這些問題圖表化處理的工具。它通過對收集到的貌似無序的數據進行處理,來反映產品質量的分布情況,判斷和預測產品質量及不合格率。
直方圖又稱質量分布圖,柱狀圖,它是表示資料變化情況的一種主要工具。用直方圖可以的資料,解析出規則性,比較直觀地看出產品質量特性的分布狀態,對於資分布狀況一目了然,便於判斷其總體質量分布情況。在製作直方圖時,牽涉學的概念,首先要對資料進行分組,因此如何合理分組是其中的關鍵問題。按
組距 相等的原則進行的兩個關鍵數位是分組數和組距。是一種幾何形圖表,它是根據從生產過程中收集來的
質量數據 分布情況,畫成以組距為底邊、以
頻數 為高度的一系列連線起來的直方型
矩形圖 ,如圖所示。
作直方圖的目的就是通過觀察圖的形狀,判斷生產過程是否穩定,預測生產過程的質量。具體來說,作直方圖的目的有:
①判斷一批已加工完畢的產品;
②驗證工序的穩定性;
直方圖將數據根據差異進行分類,特點是明察秋毫地掌握差異。直方圖的繪製方法
①集中和記錄數據,求出其最大值和最小值。數據的數量應在100個以上,在數量不多的情況下,至少也應在50個以上。我們把分成組的個數稱為
組數 ,每一個組的兩個
端點 的差稱為
組距 。
②將數據分成若干組,並做好記號。分組的數量在6-20之間較為適宜。
③計算組距的寬度。用組數去除最大值和最小值之差,求出組距的寬度。
④計算各組的界限位。各組的界限位可以從第一組開始依次計算,第一組的下界為最小值減去最小測定單位的一半,第一組的
上界 為其下界值加上組距。第二組的下界限位為第一組的上界限值,第二組的下界限值加上組距,就是第二組的上界限位,依此類推。
⑥作直方圖。以組距為底長,以頻數為高,作各組的
矩形圖 。
電視節目統計圖