文本分析

文本分析

文本分析是指對文本的表示及其特徵項的選取;文本分析是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特徵詞進行量化來表示文本信息。文本(text),與 訊息(message)的意義大致相同,指的是由一定的符號或符碼組成的信息結構體,這種結構體可採用不同的表現形態,如語言的、文字的、影像的等等。文本是由特定的人製作的,文本的語義不可避免地會反映人的特定立場、觀點、價值和利益。因此,由文本內容分析,可以推斷文本提供者的意圖和目的。

基本介紹

  • 中文名:文本分析
  • 外文名:text analysis
  • 定義:符號或符碼組成的信息結構體
  • 製作方:人
  • 套用範圍:社會知識管理方面
特徵,特徵選取方式,

特徵

將它們從一個無結構的原始文本轉化為結構化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識別。由於文本是非結構化的數據,要想從大量的文本中挖掘有用的信息就必須首先將文本轉化為可處理的結構化形式。目前人們通常採用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統計方法得到的特徵項來表示文本向量中的各個維,那么這個向量的維度將是非常的大。這種未經處理的文本矢量不僅給後續工作帶來巨大的計算開銷,使整個處理過程的效率非常低下,而且會損害分類、聚類算法的精確性,從而使所得到的結果很難令人滿意。因此,必須對文本向量做進一步淨化處理,在保證原文含義的基礎上,找出對文本特徵類別最具代表性的文本特徵。為了解決這個問題,最有效的辦法就是通過特徵選擇來降維。
目前有關文本表示的研究主要集中於文本表示模型的選擇和特徵詞選擇算法的選取上。用於表示文本的基本單位通常稱為文本的特徵或特徵項。特徵項必須具備一定的特性:1)特徵項要能夠確實標識文本內容;2)特徵項具有將目標文本與其他文本相區分的能力;3)特徵項的個數不能太多;4)特徵項分離要比較容易實現。在中文文本中可以採用字、詞或短語作為表示文本的特徵項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數中文文本分類系統都採用詞作為特徵項,稱作特徵詞。這些特徵詞作為文檔的中間表示形式,用來實現文檔與文檔、文檔與用戶目標之間的相似度計算 。如果把所有的詞都作為特徵項,那么特徵向量的維數將過於巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特徵抽取的主要功能是在不損傷文本核心信息的情況下儘量減少要處理的單詞數,以此來降低向量空間維數,從而簡化計算,提高文本處理的速度和效率。文本特徵選擇對文本內容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發現、知識發現等有關方面的研究都有非常重要的影響。通常根據某個特徵評估函式計算各個特徵的評分值,然後按評分值對這些特徵進行排序,選取若干個評分值最高的作為特徵詞,這就是特徵選擇(Feature Selection)。

特徵選取方式

常見的有4種:
(1)用映射或變換的方法把原始特徵變換為較少的新特徵。
(2)從原始特徵中挑選出一些最具代表性的特徵。
(3)根據專家的知識挑選最有影響的特徵。
(4)用數學的方法進行選取,找出最具分類信息的特徵,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合於文本自動分類挖掘系統的套用。
隨著網路知識組織、人工智慧等學科的發展,文本特徵提取將向著數位化、智慧型化、語義化的方向深入發展,在社會知識管理方面發揮更大的作用。

相關詞條

熱門詞條

聯絡我們