定義
在二十世紀90年代中晚期,為了揭示一些隱含數據性質、趨勢和模式,很多商家開始探討把傳統的統計和人工智慧分析技術套用到大型資料庫的可行性問題,這些探討最終發展成為基於統計分析技術的正規數據整理工具。
數據整理主要是指對原始數據進行加工處理,使之系統化、條理化,以符合統計分析的需要,同時用圖表形式將數據展示出來,以便簡化數據,使之更容易理解和分析。
方法
⑶
預防法: 通稱管制圖法,包括Pn管制圖、P管制圖、C管制圖、U管制圖、
管制圖、X-Rs管制圖。
步驟
1.根據研究目的設計整理方案。
整理方案主要包括兩個方面:一是對總體的處理方法,主要是考慮如何進行統計分組;二是確定反映總體特徵的相關指標。
2.統計數據的審核與檢查。
數據在整理以前,必須要對所獲得的數據進行審核,檢驗原始數據的完整性、準確性和時效性。發現問題,要及時解決。
3.數據分組和匯總,並計算各項指標。
按照一定的標準將原始數據進行分組,匯總每一組的單位數,並計算諸如均值、方差等指標。
在統計分組的基礎上,計算每組的頻數,整理成頻數分布表,繪製
頻數分布圖。
5.統計資料的積累、保管和公布。
統計資料的積累和保管。由於統計研究中要經常進行動態分析,這就需要長期積累統計資料。
意義
統計工作經過了統計調查階段之後,蒐集到了大量的統計資料,但所取得的統計資料主要是反映總體單位特徵的
原始資料,這些資料都是零星的、分散的、不系統的,只能表明各個被調查單位的具體情況,反映的是事物的表面現象,不能說明被研究總體的全貌,不能說明事物的本質特徵,也無法揭示事物的發展規律。因此必須對這些調查資料進行加工和整理,以反映現象的總體特徵。
數據整理是根據統計研究的任務和要求,對統計調查蒐集到的大量原始資料進行審核、分組、匯總,使之條理化、系統化,得出能夠反映總體綜合特徵的統計資料的工作過程。並且,對已經整理過的資料(包括歷史資料)進行再加工也屬於統計整理。通常,大量數據收集上來以後,並不能直接用來分析,因為這些數據間的差異仍能體現為一種原始的無序的狀態,只有經過整理後我們才能找到現象的規律性。
數據整理是統計工作的中間環節,它是在統計調查的基礎上進行的,又是統計調查的繼續,同時又是統計調查的前提,在統計工作中起著承前啟後的重要作用,在統計工作過程中具有十分重要的地位。統計整理結果的好壞,是否科學、真實地反映客觀實際,將直接影響到統計分析的準確性,影響整個統計工作的質量。如果這一步工作搞不好,將會使調查來的豐富、完備的資料失去價值,從而不能達到統計工作的目的和完成統計工作的任務。
此外,數據整理還是積累歷史資料的必要手段。統計研究中經常用到
動態分析,這就需要長期積累的歷史資料。而根據統計研究的需要,需要對已有的資料進行甄選、重新整理、分類和匯總等,都需要通過統計整理工作來完成。
注意事項
1.現場收集數據,應逐日、逐周和品管部門所收集的數據作核對,以求整理真實且具有代表性的數據。
2.數據整理,改善前、後所具備的條件要一致,如此所作的數據整理和比較才有意義。
3.異常發生要採取措施,一定要以整理後之數據為研究依據。
4.使用經別人發表的次級數據應注意:
(1)原蒐集數據之目的與數據之來源如何?
(2)原使用之單位是否與所欲研究者一致,如不一致應如何調整始為合用?
(3)原來蒐集所得之數字,可靠程度如何? 如可靠當然可以取用,不可靠時,應尋求原因,力謀解決。
(4)原來蒐集方法如何? 有無重複或遺漏之處?
(5)如根據兩種以上不同原始來源之數據,使用之前應查明其內容互異之處,尋求錯誤原因再定取捨。
數據整理技術
從商業角度來看,從前未知的統計分析模式或趨勢的發現為企業提供了非常有價值的洞察力。數據整理技術能夠為企業對未來的發展具有一定的預見性。數據整理技術可以分成3類:群集、分類和預測。
群集技術就是在無序的方式下集中信息。群集的一個例子就是對未知特點的群體商業客戶的分析,對這一例子輸入相關信息就可以很好的定義客戶的特點。
分類技術就是指定object,以確定集合。集合通常用上面的技術來形成,可以舉一個例子就是把客戶按照他們的收入水平分成特定的銷售群體。
預測技術就是對某些特定的對象和目錄輸入已知值,並且把這些值套用到另一個類似集合中以確定期望值或結果。比如,一組戴頭盔和肩章的人是足球隊的,那么我們也認為另一組帶頭盔和肩章的人也是足球隊的。