規則歸納是機器學習的一個領域,是從觀察集中將形式規則提取出來。
基本介紹
- 中文名:規則歸納
- 學科:機器學習
概述,範式,假設檢驗算法,關聯規則算法,決策規則算法,粗糙集規則,算法,機器學習,定義,分類,
概述
規則歸納是機器學習的一個領域,是從觀察集中將形式規則提取出來。提取的規則可能代表了全面的科學數據模型,或者只是代表了數據的本地模式。
範式
一些主要的規則歸納範式是:
假設檢驗算法
統計上對參數的假設,就是對一個或多個參數的論述。而其中欲檢驗其正確性的為零假設(null hypothesis),零假設通常由研究者決定,反映研究者對未知參數的看法。相對於零假設的其他有關參數之論述是備擇假設(alternative hypothesis),它通常反應了執行檢定的研究者對參數可能數值的另一種(對立的)看法(換句話說,備擇假設通常才是研究者最想知道的)。
關聯規則算法
關聯規則學習(英語:Association rule learning)是一種在大型資料庫中發現變數之間的有趣性關係的方法。它的目的是利用一些有趣性的量度來識別資料庫中發現的強規則。基於強規則的概念,Rakesh Agrawal等人引入了關聯規則以發現由超市的POS系統記錄的大批交易數據中產品之間的規律性。例如,從銷售數據中發現的規則 {洋蔥, 土豆}→{漢堡} 會表明如果顧客一起買洋蔥和土豆,他們也有可能買漢堡的肉。此類信息可以作為做出促銷定價或產品植入等行銷活動決定的根據。除了上面購物籃分析中的例子以外, 關聯規則如今還被用在許多套用領域中,包括網路用法挖掘、入侵檢測、連續生產及生物信息學中。與序列挖掘相比,關聯規則學習通常不考慮在事務中、或事務間的項目的順序。
決策規則算法
在決策分析中,一棵決策樹可以明確地表達決策的過程。在數據挖掘中,一棵決策樹表達的是數據而不是決策。
粗糙集規則
粗糙集(rough set),又稱粗集合。在粗糙集理論中,明確集(crisp set)是指傳統的集合,而粗糙集則用於對明確集進行形式上的逼近,即給出該明確集的上逼近集和下逼近集。此理論最初由波蘭數學家Zdzisław I. Pawlak所描述,也被視為標準的粗糙集理論。在這標準理論中,上逼近集和下逼近集都是明確集,而在其它一些版本的粗糙集理論中則是模糊集。
算法
一些規則歸納算法如下:
Charade
Rulex
Progol
CN2
機器學習
定義
機器學習是人工智慧的一個分支。人工智慧的研究歷史有著一條從以“推理”為重點,到以“知識”為重點,再到以“學習”為重點的自然、清晰的脈絡。顯然,機器學習是實現人工智慧的一個途徑,即以機器學習為手段解決人工智慧中的問題。機器學習在近30多年已發展為一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯繫尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多推論問題屬於無程式可循難度,所以部分的機器學習研究是開發容易處理的近似算法。
分類
機器學習可以分成下面幾種類別:
監督學習和非監督學習的差別就是訓練集目標是否人標註。他們都有訓練集 且都有輸入和輸出
- 半監督學習介於監督學習與無監督學習之間。
- 增強學習通過觀察來學習做成如何的動作。每個動作都會對環境有所影響,學習對象根據觀察到的周圍環境的反饋來做出判斷。