信息內容審計:簡介,審計模型,關鍵技術,模式匹配算法,文本內容分析技術,不良圖像內

信息內容審計（information content audit）是指對進出內部網路的信息，為防止或追查可能的泄密行為所進行的實時內容審計。

中文名稱	信息內容審計
英文名稱	information content audit
定　　義	對進出內部網路的信息，為防止或追查可能的泄密行為所進行的實時內容審計。
套用學科	通信科技（一級學科），網路安全（二級學科）

基本介紹

中文名：信息內容審計
外文名：information content audit

簡介,審計模型,關鍵技術,模式匹配算法,文本內容分析技術,不良圖像內容識別,評估與處理,內容安全態勢評估與預測,線上處理與阻斷,審計研究的熱點與難點,流媒體視頻內容審計,動態信息流的特徵分析,關鍵字列表動態更新,主動式內容傳播檢測,信息內容動態遷移研究,

簡介

如何加強網路中信息安全管理，保證網路信息內容的合法性、健康性和安全性，已成為網路通信領域亟待解決的重大問題。在此情況下，網路信息內容審計應運而生，為應對網路信息安全問題提供了有效對策。目前，網路信息安全審計作為一種有效的管理措施和取證手段已經被許多國家所接受，並得到多數的認可，成為保證網路安全不可或缺的重要組成部分，其相關理論技術研究也越來越得到人們的重視。基於網路信息的內容審計技術可以通過對網路上傳輸的內容進行審計，發現問題，及時切斷連線，並保留日誌。不僅可以防止網路上傳輸的不良信息的泛濫和公司區域網路涉密信息或商業信息的泄露，而且可以為出現不良信息傳播和涉密信息泄露的情況下提供線索和證據。

網路信息內容審計與信息檢索等研究具有一定相似性，兩者均以文本為主要的處理對象，都按照一定規則進行分析並得出有益的結果。但兩者也存在較大區別，在系統模型、數據源、分析規則、套用需求等方面存在差異。網路信息內容審計涵蓋了計算機網路、自然語言處理、數據挖掘、人工智慧、複雜網路等多個學科領域，涉及的研究內容較多，目前還沒有相關方面的綜合性論述文獻。

審計模型

在內容審計研究初期，系統模型為主要研究內容，已有結構模型主要有單一主機集中式結構及監聽與審計分離的分散式結構等。

單一主機集中式結構採用單一主機完成數據包提取、內容審計、報警等功能，該結構實現簡單，主要套用於低頻寬網路環境、小規模網路及算法研究與測試。

分散式結構將監聽與審計模組分布實現，同時會採用均衡算法對流量進行分流。文獻研究了一種網站內容安全監管系統的框架，採取提取、搜尋、濾除和審計4個步驟進行內容檢查;文獻提出了一種分散式網路內容監控審計系統，採用一台主機作為數據接收機，並根據負載均衡的策略，進行數據包處理和內容審計。文獻介紹了一種基於內容安全的區域網路監控系統。另外，還有不少文獻也描述了相似的系統模型。

從總體上來看，已有的分散式結構具有較好的可實施性及可擴充性，但主要還是面對局部網路的內容審計，對於大規模網路環境下的套用還存在不足。並且這些結構在審計細節上描述較為粗略，離實用還有一定距離。

概括來講，已有系統模型主要是針對局部網路區域的內容審計，難以滿足大規模網路環境下的複雜多變的審計要求。同時，由於網路流量的增長速度已遠遠高於處理器處理能力的增長速度，因此使用負載均衡算法來應付大流量內容審計是必須的，但已有的分流技術存在不足，不能實現真正的負載均衡，需要進一步完善數據負載均衡算法。審計體系對系統自身的安全性能考慮較少，在審計系統內部模組的通信安全以及系統自身抗攻擊能力等方面存在缺陷，極易受到有經驗網路使用者的攻擊。

文獻描述了一種適合於大規模網路環境的分散式、可擴展的高性能內容實時審計系統模型。該系統模型在審計性能和安全性方面都有較大的提升。

關鍵技術

獲取數據包後，審計系統對其內容進行深度分析，此過程涉及模式匹配算法、文本語義分析、熱點話題發現、不良圖像內容識別等關鍵技術。

模式匹配算法

審計系統利用多模式精確匹配和多模式相似匹配算法搜尋數據包中是否存在敏感模式串，並統計模式串出現的頻率，為後續的文本內容分析提供支持。

與其他套用環境相比，內容審計中的多模式匹配有如下特點:一是中英文混合環境，由於編碼的原因，數據包中與協定相關的部分通常是英文字元，與內容相關的則主要是中文字元，而且兩者會交替出現。就中文而言，由於漢字有簡繁體之分，文本中會包含2種或2種以上編碼的字元。二是不良信息內容發布者會人為在信息中加入干擾字元。另外，由於中英文語言存在比較明顯的差異，如中文語言是大字元集語言，字母表數量龐大，詞語字元長度較短；英文語言的字母表小，字元長度較長等，這些差異使得在中英文混合環境下進行內容審計的模式匹配算法要求也不同。

研究文獻提出的經典DFSA算法套用於英文字元環境時效率很高，但直接套用於中文字元匹配時，構建中文字元的完全Hash表時存在存儲空間膨脹問題。通過分解中文字元內碼構造組合狀態自動機，解決了中文字元構建完全Hash表時的空間膨脹問題，但它在中英文混合環境下，會導致位元組錯位問題。

採用加“標記”方法來防止匹配中的錯位問題，該方法解決了中英文混合環境下位元組錯位的問題，但需要對待匹配文本串進行預掃描，匹配效率較低，而且該算法沒有考慮ACSII，GB，BIG53種編碼混合的情況。通過對中文字元內碼的高低位元組進行Hash運算，將中文字元映射到大小為65536的集合中進行匹配，該算法避免中英文混合環境下的位元組錯位問題，也適用於3種編碼混合的情形，但對每箇中文字元的映射運算，影響了算法的匹配效率。給出並證明了中英文混合環境下多模式匹配算法的性能定理，提出了一種適合於中英文混合環境的多模式匹配算法，該算法在中英文混合環境下能夠進行正確高效的匹配，而且不存在空間膨脹問題。

涉及到中文的多模式相似匹配會更加複雜。已有多模式相似匹配算法允許在模式串的任意位置插入字元，但一個中文字元的兩個位元組中間不允許插入字元，在包含m個漢字的字元串中存在m個禁止插入位，因此在中英文混合環境下，已有多模式相似匹配技術會導致錯誤的匹配結果。文獻提出了一種適合於中英文混合環境的多模式相似串匹配算法，該算法把所有模式串轉換為多個有限自動機，並利用模式串建立一個狀態驅動器，依次用待匹配串的字元驅動狀態驅動器，再由狀態驅動器驅動各個有限自動機。

文本內容分析技術

文本內容分析在內容審計中用於深度識別可疑文本，同時發現當前信息流中的熱點信息。目前文本內容分析技術大多以詞語為基本元素，構建文本表示模型，分析文本相似度並採用分類等方法確定其屬性。

中文詞語之間沒有明確的隔斷標誌，需要進行分詞處理。目前最常用的中文分詞方法有基於統計的機械分詞方法及基於規則的知識分詞方法。機械分詞方法首先查詢字典進行匹配，然後利用詞法規則進行分詞歧義校正。在文獻中提出了機械分詞方法的形式化描述模型，此模型可簡單描述機械分詞方法所採用的具體算法策略。知識分詞方法不僅通過詞典匹配，還利用詞法、句法甚至語義等方面的知識，利用知識的範圍更廣，同時還可通過人工智慧技術進行推理，並將分詞與歧義校正合為同一過程。

將已有分詞算法套用到網路信息內容審計中時，存在分詞速度慢，缺乏權威、專業的分詞語料庫支持、魯棒性較差等問題，需要深入研究適合於內容審計的分詞方法。

在中文分詞基礎上，進而採用VSM(vector space model)模型對文本進行形式化建模，計算文本的相似度。為了便於計算文本之間的相似度，通常進行特徵選擇處理。常用的特徵選擇算法有χ2統計、文檔頻數、期望交叉熵和文本證據權等。進行文本相似度建模後，可進一步採用類中心分類法，貝葉斯、KNN和神經網路等分類算法，實現對文本內容的判別。

對於普通完整文本，文本分類系統的效果主要取決於中文分詞的準確度、特徵選擇、分類算法和訓練文本。而在內容審計系統中，分類對象為數據包中的片斷文本，對於這樣的特殊需求，現有文本分類算法均有不足。

文獻針對這一問題，考慮數據包報文分段對文本分類的影響，在KNN算法的基礎上，提出了一種基於上下文的模糊K-最鄰近文本分段分類算法。該算法比KNN算法有著更高的查準率、查全率及正確率，並且分類所需時間也更少。

近年來，隨著網路輿情分析研究的逐漸興起，網路話題識別與跟蹤成為研究熱點。目前相關研究集中於挖掘Web文本(新聞、部落格等)中的話題信息，同時也有部分研究者針對網路流量內容數據，套用文本內容分析技術分析話題信息。文獻基於網路流量內容中話題的流相關特性，採用聚類算法分析網路熱點話題信息；文獻針對簡訊流量內容中的突發性熱點話題，提出基於特徵關聯的簡訊息熱點話題發現算法。這些研究雖然仍處於起步階段，但為網路內容審計技術拓展出了新的研究方向。

不良圖像內容識別

不良圖像作為色情信息的重要載體，一直是內容審計的重點對象之一。色情圖像的識別屬於基於內容的圖像過濾範圍，但又具有一定獨特性，很難用一個簡單模型把色情圖像所有的特徵表現出來，但色情圖像也具有比較獨特明顯的特徵，即皮膚裸露。概括來講，不良圖像內容識別主要包括膚色區域檢測及敏感特徵提取等技術。

膚色檢測通常採取顏色空間變換、膚色區域建模兩個步驟建立膚色統計模型，實現對膚色區域的檢測。膚色在顏色空間的分布相當集中，但受光照和人種的影響很大，通常需選擇合適的顏色空間來進行膚色檢測。文獻討論了顏色空間選擇問題，並對所選空間的最優性進行了論證。但是由於膚色檢測問題的複雜性，只能根據不同的性能指標選擇相對最優的顏色空間。

膚色範圍建模通過劃定人體膚色取值範圍，並設定相應閾值區分圖像中的膚色區域；文獻採用單峰高斯模型對膚色進行建模區分；文獻為離散化的顏色空間中的單位區域設定一個機率值，採用規則化查找表或貝葉斯分類算法對膚色區域進行檢測。

在膚色檢測的過程中，需要進行紋理分析來去除類似膚色的區域。文獻採用基於DCT變換和Gabor小波變換兩種方法提取皮膚紋理特徵。文獻使用灰度共生矩陣來提取紋理特徵。文獻根據色情圖像膚色區域的紋理特徵，建立粗細度模型檢測皮膚紋理。

獲得膚色掩碼圖像後，進一步提取色情圖像的檢測特徵，構建識別特徵向量，將色情圖像識別轉換成分類問題，然後選擇合適的分類器進行識別。文獻綜合考慮了人體部位結構、部位之間的關聯以及顏色與紋理等因素，提出了人體敏感部位的識別方法；文獻將SVM分類算法套用於色情圖像內容識別；文獻在提取人體膚色的基礎上加上了面部檢測的模組，並結合圖像輪廓、面積等多項圖像特徵進行識別。文獻通過建立人體軀幹模型，確定圖像中人體軀幹的大概位置，在此基礎上提取色情圖像的分類特徵。

評估與處理

經過上述內容分析後，審計系統根據審計結果，對一定時間內、一定網路範圍內的內容安全態勢進行評估與預測，在必要時與網路安全防火牆進行安全聯動，實施線上阻斷等安全防護措施，並向網路管理者提交可訂製的內容安全審計報告。

內容安全態勢評估與預測

通過綜合分析一定周期內的審計結果，對當前網路信息內容的安全態勢進行評估，並對未來的內容安全趨勢進行預測，實現對不良信息內容大範圍傳播的有效控制，一方面根據事態嚴重程度採取應對措施，遏制事態的發展；另一方面可以評估已採取措施的有效性，為後續措施選取提供依據。

近年來，在網路安全研究領域，安全態勢評估正成為一個研究熱點，被國內外研究者廣泛關注，文獻提出了一種基於免疫的網路安全風險檢測模型，實現對網路系統面臨攻擊時的實時風險評估；文獻提出了一個由風險網路和風險傳播算法構成的風險傳播模型。上述研究大多專注於網路化系統自身的物理安全，針對網路信息內容的安全態勢評估的研究還較少。與網路系統安全評估不同，內容安全態勢評估的數據來源為內容安全警報記錄和可疑文本的類別信息及信息傳播過程的規律，更注重網路使用者思想層次的規律研究。

在評估內容安全歷史狀況的基礎上，還需對內容安全態勢變化的趨勢進行預測。尤其是Web社會網路、IM社會網路等新型社會網路模式，為網路信息快速傳播的拓撲基礎。

從本質上講，網路內容安全態勢問題是用戶在此類社會網路上對熱點信息關注並傳播的問題。針對這一問題，研究者一方面研究基於傳染病模型和流言模型，建立關注並傳播熱點不良信息用戶規模趨勢的預測模型；另一方面針對社會網路中用戶關注熱點不良信息的行為趨勢，研究了相應的預測模型。文獻研究了社會網路邊的非均勻性和網路結構對SIR模型傳染病傳播的聯合影響，文獻提出了一個基於二維小世界網路的流行病預警SI模型，文獻提出了小世界網路中的流言傳播模型，並對流言在網路中的傳播過程進行了描述，文獻提出了無尺度網路中的流言傳播模型。文獻研究了用戶年齡、性別、居住地等屬性與用戶行為趨近的關聯關係，文獻研究了網路用戶的行為特徵，提出了預測用戶是否關注並傳播熱點信息行為的動態機率模型。上述研究為網路內容安全態勢的趨勢預測提供了重要理論依據，在其基礎上，可構建內容安全趨勢預測的數學模型。

線上處理與阻斷

當發現違反安全策略的信息內容後，審計系統會根據策略實施相應的線上處理措施，部分措施在審計系統內部完成，如重點監控、證據保留、關鍵字敏感度提升等；部分與防火牆等環節協同完成，包括危險流量阻斷、網路通信限制，其機制與入侵檢測和防火牆的聯動機制相似。

內容審計系統中的線上阻斷技術具有較大的實現難度。首先，對傳播不良信息的數據包的準確判定具有較大難度，滿足怎樣的條件可以被認定為惡意數據包，是很難確定的。其次，使用線上阻斷對網路流量進行過濾，會造成網路數據傳輸效率的下降，可能會嚴重影響正常流量的傳輸。一般只在網路安全態勢嚴重時才採取線上阻斷策略。

網路安全聯動回響機制可以發揮不同安全技術的特點，從而取得更好的網路安全防範效果，研究重點是信息的收集與分發機制及信息格式的規範化。目前，主要有IETF的入侵檢測信息交換格式IDMEF和事件對象描述交換格式；DAPRA的通用入侵檢測框架協定組和開發接口；DMTF的通用信息模型。目前，國外有一些研究機構開始這方面的研究，但都不夠深入，還沒有形成成熟的技術。

審計研究的熱點與難點

流媒體視頻內容審計

網路視頻具有內容豐富、感觀性強等特點，已經成為不良信息在網際網路上傳播的主要方式之一。如何及時、準確地識別此類視頻流量，並採取有效的監管措施，已經成為十分緊迫的問題。內容審計系統需要對不良視頻流媒體數據實時檢測與阻斷，目前還沒有很好的實時審計檢測方法。現有的檢測方法大多需要提取完整視頻檔案的幀圖像，然後採用不良圖像內容識別的方法進行檢測。這些方法無論是實時性還是準確度都無法滿足內容審計的需求。

動態信息流的特徵分析

現有內容審計研究在分析流量中不良信息時，側重於網路中不良信息的出現情況。通過對流量內容中的敏感辭彙進行模式匹配，統計並顯示一個節點處的不良信息傳輸態勢。這樣的處理過程較為被動，只有當不良信息大量擴散，並造成惡劣影響後，內容審計系統才能作出一定回響。

信息在網路流量中看似以混沌模式、無規則地向網路中各個節點傳播，但研究發現其傳播具有規律性，特別是一些熱點信息的傳播。在具體研究中，可以從流量信息的核心內容及傳播鏈路等方面入手，研究熱點信息的興起、傳播、擴散過程，並研究信息傳播過程中表現出來的特徵，從而挖掘出流量中所隱藏的信息流。對信息流的研究可分為兩個方面:一是研究熱門信息的內容特徵；二是研究信息流的傳播模式。第2方面的研究建立在第1方面研究的基礎上。在研究中，可以通過對信息流傳播模式的分析、建模，預測出未來網路中信息流發生並傳播的情況，並且推測出現實社會中輿論走向和可能發生的群體行為。

關鍵字列表動態更新

在已有的內容審計系統模型中，幾乎都是採取人工建立關鍵字表，然後將數據包內容同關鍵字匹配，以查找可疑數據包。由於很難建立一個全面、客觀、及時更新的關鍵字表，使得傳統的處理流程局限性很大。特別是在知識爆炸的年代，網路上每天都會產生許多新興的熱點辭彙，例如“超女”、“神舟”等，並且與這些熱點辭彙相關的網路內容大多具有較強的輿論價值。因此，有必要通過一些技術手段，動態追蹤網路新興辭彙的產生及發展。

新興辭彙的特徵是在短時間、較小區域內重複大量出現，因此，可以通過對數據包內容進行分詞處理，並統計詞頻信息，將短時間內以較高頻率出現的辭彙提取並提交給分析人員處理。通過人工的分析，找尋出可能的新興關鍵字匯，並用以擴充更新內容審計系統中關鍵字列表。

主動式內容傳播檢測

隨著P2P技術的大量套用，越來越多的P2P用戶使用相應軟體共享文字、圖片、視頻等數據，這些檔案數據中可能存在大量不良信息，如何跟蹤P2P協定數據中不良信息的傳播成為很有意義的問題。現有網路內容審計系統的常見模式是對網路中不良信息傳播的被動檢測與處理，缺乏全局有效的跟蹤策略，對於利用P2P網路傳播不良信息缺乏有效控制手段。

實現主動式的不良內容傳播檢測，可首先偽裝成不良信息的獲取與傳播者，然後解析不良信息種子的相關屬性，進而發現這些不良種子的網站發布源，並進入到這些種子的下載任務中，獲取使用該種子的網路用戶規模及IP位址分布，從而實現對不良信息傳播過程的跟蹤監控。

信息內容動態遷移研究

信息傳播過程中，在不同時間將呈現出不同的關注焦點，針對信息焦點內容的動態遷移過程，研究焦點內容的識別方法，並研究其演變模型，是網路內容審計技術的前沿研究方向之一。針對該項研究，可根據熱點信息傳播中關注焦點內容具有階段性的特點，並且新的關注內容呈現出由前一個或兩個關注內容所決定的規律，將關注焦點內容看作各個不同的不良信息狀態，研究不良信息狀態之間的遷移規律，並採用隱Markov模型等手段對信息焦點內容的遷移過程進行建模。

信息內容審計