改進的ID3決策樹分類算法在成績分析中的套用研究

《改進的ID3決策樹分類算法在成績分析中的套用研究》是牛文穎撰寫的一篇論文。

基本介紹

  • 中文名:改進的ID3決策樹分類算法在成績分析中的套用研究
  • 作者:牛文穎
  • 論文來源:大連交通大學
  • 發表時間:2008-12-06
  • 分類號:TP301.6
論文摘要,引文格式,

論文摘要

數據挖掘是2 0世紀末興起的數據智慧型分析技術,它可以從資料庫、數據倉庫以及其它各種資料庫中的大量數據中,自動抽取或發現有用的模式知識。在這一過程中,數據分類是數據挖掘領域研究的重要課題。目前用於分類的方法有很多種,其中決策樹分類方法以其算法理論清晰、易被理解以及容易轉換成分類規則等優點而被廣泛研究與套用。本文以“嵌入式系統網上智慧型教學平台”建設為背景,目的是研究如何將數據挖掘技術與現有的資料庫系統相結合,從海量特徵的數據中提取出隱藏在數據之中的有用信息,為系統管理者和決策者提供綜合分析。通過對數據挖掘基本原理、基本算法的研究。開發了基於決策樹算法的學生評估工具模組。以改進的決策樹ID3算法為基礎,根據學生成績庫中的信息以及其它庫中有關學生基本數據的信息,建立一個決策樹成績評估模型,對學生進行相應的綜合分析評估。通過對幾種典型的決策樹算法進行分析比較,本文提出一種改進的ID3算法。該算法的思想是首先將泰勒公式原理與ID3算法的屬性選擇標準一信息熵的求解相結合,對ID3算法信息熵的求解進行簡化,改變了決策樹算法中屬性選擇的標準,減小了算法的計算複雜度,提高了算法運行效率;然後再賦予每個屬性簡化後的信息熵一個權值N,N的取值取決於每個屬性的取值個數,用以平衡每個屬性對數據集的不確定程度,使得屬性的選擇更加合理化,避免選擇的屬性與實際不相符。最後在Eclipse平台上利用Java語言分別實現改進前後的ID3算法。實驗結果表明,改進後的ID3算法提高了決策樹的構建速度,減少了算法的計算運行時間,同時也克服了ID3算法往往偏向於選擇取值較多的屬性作為測試屬性的缺陷。並且隨著數據規模的增大,決策樹的分類性能表現得越好。理論分析和實驗結果表明,本文提出的改進算法改善了原始決策樹ID3算法的性能,表現出了良好的分類效果。

引文格式

牛文穎. 改進的ID3決策樹分類算法在成績分析中的套用研究[D].大連交通大學,2008.

相關詞條

熱門詞條

聯絡我們