把數學套用到情報科學各領域研究中而形成的一門學科分支。主要研究情報數學有關概念的定量描述,情報過程中各現象的定量表示,以及它們之間的關係。採用的研究步驟一般是:數學問題的形成,選擇研究方法,進行推導,對所得結果進行分析和機理解釋。由於情報依賴人的認識、判斷,致使情報數學研究問題較為複雜。情報數學研究歷史較短,但它關係到一些科學部門的發展,意義是深遠的。
情報測度,情報空間,情報集合理論,情報數理統計分析,情報系統分析,情報編碼理論,情報檢索數學模型,
情報測度
情報是客觀存在。最初,按載體度量情報。例如 ,一份報告 、一條文摘等。這種度量很粗糙。根據情報概念的內涵和外延,情報與信息的關係是信息叾情報,即情報是信息的一個子集。於是可以用代表子集元素的概念或概念詞計算情報量。為了反映情報的特徵,定義情報為域U上的一個模糊子集峎,以信息對模糊集合峎的隸屬度計算情報量。
情報空間
一份情報含有若干概念,概念與主題詞相關聯。如果用ri表示情報r與主題詞表中的第I個主題詞的關聯程度,則稱r=(r1,r2,r3,…,rm)為情報r的情報向量,其中т 是主題詞表中主題詞的個數。在情報向量集合中,按某種方法定義兩向量間的距離,可構成情報向量空間,簡稱情報空間。在情報空間中,n 個情報向量組成的情報矩陣定義為(R),其中rij表示第i份情報與第j個主題的關聯程度。引入這些概念之後,可以利用情報向量、情報矩陣進行各種運算,研究情報間的關係。
情報集合理論
情報集合是由若干條情報所組成的集合。集合中的元素是一條條情報。每條情報也是一個集合,其中的元素是一個個概念詞。為揭示和查詢情報而編制的主題詞索引也組成一個集合 — —主題詞集合。主題詞集合與情報集合存在著對應關係,即存在一個映射F,使主題詞集合完成到情報集合的映射:
F:主題詞集合→情報集合
常用大寫字母A,B,…,X,Y,…表示集合,而用小寫字母а,b,…,x,y,…表示集合的元素,對於集合A來說,某一元素x或者是A的元素,記作xA,或者不是A的元素,記作x媂A。只有這兩種可能。
利用L.查德建立的模糊集合理論把情報定義為論域U上的一個模糊集合峎。用隸屬函式μ描述元素x屬於情報集A的程度。μ峎稱為x關於峎的隸屬度。μ峎(x)=1 表示元素x完全屬於峎,μ峎 (x)=0表示元素x完全不屬於峎。μ峎(x)越接近於1,x屬於峎的程度就越大。在情報檢索中,用μ峎(x)表示提問式x與情報集A的主題詞的匹配程度。μ峎 (x)=1,完全匹配;μ峎 (x)=0完全不匹配;0<μ峎 (x)<1,部分匹配。
情報集合理論包括情報集的運算,情報映射及映射函式,情報的模糊測度理論等。
情報數理統計分析
情報過程中的事件多為隨機事件,例如情報用戶需求,情報分布等。對這類問題,常採用數理統計方法進行研究。情報數理統計分析包括情報分布統計分析,情報用戶需求統計分析,情報統計分析與預測,情報檢索機率模型等。
情報系統分析
情報系統主要研究情報流的變化規律。情報系統分析的基本想法是:建立情報系統的一個數學模型,然後把一種數學分析運用到這個模型,再把分析的結果套用到情報系統中。
進行情報系統分析,採用常用數學技巧時有3 個主要困難,即維數,“硬”和“軟”變數的存在,以及目標之間的衝突。維數即系統用多少狀態變數去描述;在情報系統中,諸如存儲於計算機中的資料庫是硬變數,人們的認識、需求是軟變數;情報系統一般不是一個單獨的實施判據。幸而由於計算機時代的促進,使情報系統研究得到了發展。
情報編碼理論
用抽象符號表示情報稱為情報編碼。情報編碼理論主要研究怎樣用最少的符號表示有限情報集合中的元素。相應的問題是解決情報保密問題。
情報檢索數學模型
有集合論模型,代數模型,機率模型等。這些模型在使用計算機後得到令人滿意的處理。
①G.索爾頓集合論模型 設提問語句集合為R ,情報集合為D ,主題詞集合為C ;從D 到C 的映射為X :D →C ;從R 到2 的映射如下:R →2 ;從R 到2 的映射為T :R →2 。於是檢索過程T (r)為
T (r )={d |x(d )F (r )} d D ,r R
提問語言r 檢索得到一個情報集合, 該集合的元素滿足提問語言。
②A.布克斯坦和W.庫珀集合論模型 把情報檢索系統用一個4元組描述:
S =(I ,R ,V ,T )
其中I 是情報集合,R 是提問集合,V 是檢索狀態值集合,T 是把R ×I 映射到V 上去的函式。檢索過程描述為:對每個提問r R ,T 定義一個函式
T r 在I 上產生一個弱序結構。根據這個結構,用戶可以找到自己所需要的情報。
③情報檢索代數模型設情報矩陣為A,對每個提問用提問向量Q =(q1 , q2 ,…, qn)表示。計算R=AQ =(r1,r2,…,r n),則r i超過某一閾值的情報為命中情報輸出。
另一種情報檢索代數模型是計算R =D C T Q ,設R 的超過閾值的P 個分量為i1 ,i2 ,…,iP ,則第i1 ,i2 , …, iP 條情報為檢索命中情報。這裡D =(d ij )為情報相關矩陣,d ij為第i 條情報與第j條情報所含主題詞重複面的大小;T =(tji ) 表示標引詞相關矩陣;C =(cji )表示情報矩陣,Ci=(Ci1 ,C i2,…,C in)為第i 條情報的情報向量。
不少情報教育單位相繼開設了情報數學課程初,確立了它的應有的學科位置。但是,情報與人的認識、判斷有關,與政府的政策、法令有關,使情報數學研究變得有趣而複雜,問題將會逐步得到改善。