分箱法是指通過考察“鄰居”(周圍的值)來平滑存儲數據的值,用“箱的深度”表示不同的箱裡有相同個數的數據,用“箱的寬度”來表示每個箱值的取值區間。
基本介紹
- 中文名:分箱法
- 領域:數學、數據處理
- 類型:數學方法
- 性質:統計
定義,舉例,
定義
由於分箱方法考慮相鄰的值,因此是一種局部平滑方法。分箱的主要目的是去噪,將連續數據離散化,增加粒度。
按照取值的不同可劃分為按箱平均值平滑、按箱中值平滑以及按箱邊界值平滑。
舉例
假設有8、24、15、41、6、10、18、67、25等9個數,先對數進行從小到大的排序,6、8、10、15、18、24、25、41、67,再分為3箱。
箱1: 6、8、10
箱2: 15、18、24
箱3: 25、41、67
分別用三種不同的分箱法求出平滑存儲數據的值:
按箱平均值求得平滑數據值:箱1: 8,8,8,平均值是8,這樣該箱中的每一個值被替換為8。
按箱中值求得平滑數據值:箱2: 18,18,18 ,可以使用按箱中值平滑,此時,箱中的每一個值被箱中的中值替換。
按箱邊界值求得平滑數據值: 箱3:25,25,67,箱中的最大和最小值被視為箱邊界。箱中的每一個值都被最近的邊界值替換。
通過不同分箱方法求解的平滑數據值,就是同一箱中3個數的存儲數據的值。