文本數據挖掘

文本數據挖掘(Text Mining)是指從文本數據中抽取有價值的信息和知識的計算機處理技術。

基本介紹

  • 中文名:文本數據挖掘
  • 外文名:Text Mining
  • 種類:基於單文檔的數據挖掘等
  • 方法:文本分類,文本聚類
概念
顧名思義,文本數據挖掘是從文本中進行數據挖掘(Data Mining)。從這個意義上講,文本數據挖掘是數據挖掘的一個分支。
文本挖掘種類
1.基於單文檔的數據挖掘
2.基於文檔集的數據挖掘
文本挖掘方法
1.文本分類
文本分類是一種典型的機器學習方法,一般分為訓練和分類兩個階段。
文本聚類是一種典型的無監督式機器學習方法,聚類方法的選擇取決於數據類型。
4.摘要
5.壓縮
其中,文本分類和聚類是兩種最重要最基本的挖掘功能。
挖掘工具
1.IBM DB2 intelligent Miner
2.SAS text miner
3.SPSS Text Mining
4.DMC TextFilter(純文本抽出通用程式庫)
套用
文本挖掘傳統商業方面的套用主要有,企業競爭情報、CRM、電子商務網站、搜尋引擎,現在已擴展到醫療、保險和諮詢行業。

相關詞條

熱門詞條

聯絡我們