定義 開放結構於20世紀80年代初提出,與開放系統概念的提出和實現密切相關。它的發展是為了適應更大規模地推廣計算機的套用和計算機網路化的需求,現仍處於繼續發展和完善之中。一些標準化組織對開放系統的概念是大體相同的,但具體的定義不完全一致。
特點 為滿足建立和實現開放系統的需要,開放結構應具有以下4個特點:
②可
互操作性 。如計算機網路中的各結點機都具有開放結構的特性,則該網上各結點機間可相互操作和
資源共享 ,不論各結點機是否同種型號、同種機型。
③可剪裁性。如某個計算機系統是具有開放結構特性的,則在該系統的低檔機上運行的套用系統應能在高檔機上運行,原在高檔機上運行的套用系統經剪裁後也可在低檔機上運行。
④易獲得性。在具有開放結構特性的機器上所運行的
軟體環境 易於從多方獲得,不受某個來源所控制。
實現 為了全面實現上述開放系統的4個特性,首先要保證實現系統的可移植性和
互操作性 。
①為實現可移植性,首先要建立起符合開放系統概念的開發平台,在這個開發平台上所開發的套用系統都可以在另一個符合開放系統概念的平台上,以同樣的工作環境去編譯和運行原套用系統,不必對
源程式 作任何修改。
基礎標準 標準化是實現開放性的基礎,為了確保互聯和互操作等性能的實現,就必須制定一些標準規範。開放系統互連(OSI)有關的標準是
國際標準化組織 (ISO)
信息處理系統 技術委員會於1978年開始制定的。ISO開發的OSI及相關標準已超過200餘項,幾乎覆蓋了信息處理的各個重要領域。世界上各大計算機製造商和用戶都支持OSI標準,建立在OSI上的環境,稱為OSIE,開放體系結構(OA)也是實現OSIE的技術基礎。
國際電報和電話諮詢委員會(CCITT)也從事OSI標準開發工作。CCITT是聯合國組織——
國際電信聯盟 的一部分。CCITT和ISO緊密合作,共同開發信息處理和信息通信的有關標準。
在
OSI模型 的基礎上,由ISO和
國際電工協會 (IEC )兩大
國際標準組織 的聯合技術委員會JTC1負責制定OSI的基礎標準,由JTC1下屬的有關分技術委員會(SC)和工作組(WG)具體負責開發這些標準。
功能標準 為了確保系統的
互操作性 ,除基礎標準外,還要根據用戶的需求和實際的網路能力,選定一些功能標準(也稱為功能輪廓或規範檔案)。顯然,功能標準不應同基礎標準相矛盾,而只是對每一基礎標準所允許的選項加以特定的選擇。一些國家或機構正在針對自己的具體情況制定一些各自的功能標準。例如:①英國的中央計算機和電信局(CCTA)定義了名為MUSIC的開放系統套用結構框架,其中的M、U、S、I、C分別表示管理、
用戶接口 、系統和套用接口、信息和數據服務及通信服務。②由若干計算機廠商組成的國際性非盈利組織X/open,在ANSI、IEEE和ISO等標準化組織所正式公布的標準中選定開放系統規範。③由百餘個計算機製造商和研究機構組成的非盈利組織
開放軟體基金會 (OSF),為開放
軟體環境 制定一套套用環境規範(AES),並對按照這些規範開發的源程式發放許可證。
套用 當基於開放系統的概念和在具有開放體系結構性能的計算機系統上開發套用體系結構(OAA)時,對任何一個套用任務可通過3種不同的抽象級別進行描述,即需求描述、過程描述和代碼描述。可以把OAA劃分為
套用軟體 、系統軟體和硬體3檔,依次地將套用軟體的需求說明翻譯成可為系統軟體識別的源程式,再翻譯成可為硬體執行的機器代碼。因此,開放結構是構成開放套用體系結構的基礎和硬體執行部分。
開放式文檔同構引擎 信息安全 是數字時代國家安全的重要領域,內容
安全監控 是信息安全的新課題整個國家不但需要安全的信息傳遞的基礎設施,還需要對在此基礎上傳遞的內容進行安全監控。在傳統資訊理論的框架下,解決安全問題的方法主要是對物理信號進行機械加工而實現的。傳統的資訊理論對於信息的處理的極限促成了智慧型理論的套用。同樣,傳統方法在信息安全方面的極限,召喚著對信息更深層次的處理,從而達到更高的安全需求,這樣就使得基於內容的安全成為安全領域的一個迫切需要發展的問題。
然而,現有的內容安全產品都面臨著一個重要的問題,從各式各樣的文檔中提取用於理解和過濾的純文本信息,由於現實中文檔格式紛繁複雜,大多數產品迴避了這個問題,如
反垃圾郵件系統 工作時,對郵件正文進行理解,而忽略郵件附屬檔案內容的處理,這樣定會放過不少
害群之馬 。因此,本課題提出開放式文檔同構引擎這一概念,旨在解決內容安全產品需要解決的如下兩個問題:
一、如何處理多種多樣的原始文檔格式,並從中獲得純文字信息。
二、如何對文字信息進行統一描述,並使其適用於包含內容安全在內的各種套用系統。
因此,開放式文檔同構引擎的實現,可以使相關套用系統擺脫文檔異構的問題,而專注於其本身的技術。除內容安全領域之外,開放式文檔同構引擎在其他自然語言處理領域內也有十分重要的套用意義。
開放式文檔同構引擎套用 文檔摘要系統中的套用 自動摘要就是利用
計算機 對文獻編制的摘要。自動摘要系統是一個非常複雜的自然語言處理系統,它通過對文檔的理解,產生具有準確性、簡潔性、清晰性的文字,概括整個文檔的意義。自動摘要系統首先面臨的就是,從多文檔格式中抽取有用信息問題。集成了文檔同構引擎的文檔摘要系統可以專注於其本身自然語言處理領域的工作。
反垃圾郵件系統中的套用 以
反垃圾郵件系統 為例,沒有開放式文檔同構引擎的
反垃圾郵件系統 可以對郵件正文進行語義理解和過濾,非正文非附屬檔案的其他部分進行簡單的規則過濾,對郵件附屬檔案卻無能為力,這在當前網際網路規模壯大,郵件附屬檔案存儲容量增加的情況下,暴露出越來越嚴重的缺陷。整合開放式文檔同構引擎的反垃圾郵件系統可以解決這個問題,並使系統專注於垃圾郵件的檢測問題上。
圖2
為了適應不同套用系統的需要,開放式文檔同構引擎自底向上分為:物理層、邏輯層、詞句法層、概念層和主題表示層。除上述兩種套用之外,它還能對信息抽取、信息過濾、信息檢索、主題表示等自然語言處理方面套用都能夠提供底層支持。因此,開放式文檔同構引擎可以看做是多種自然語言處理系統的底層抽象。
開放式文檔同構引擎概述 最初對文檔層次進行研究出現在文學理論界,學者們是從文學審美和哲學角度來探討文本的層次性,根據文本的表達能力將文本分為不同的層次。隨著
計算語言學 研究的興起和中文信息處理熱的出現,計算機科學和情報學界也對文本的層次性進行了相關的研究,但是,依據此模型建立的系統還沒有出現。本文根據自然語言處理相關技術的實際需要,擬把開放式文檔層次模型分為物理結構層、邏輯結構層、詞法和句法分析層、概念抽取層、主題表示層等5個層次,套用架構如圖3所示。
圖3
開放式文檔同構引擎是開放的、可擴充的套用系統,它可以根據套用的需要,向上層提供不同的服務,如,搜尋引擎系統需要詞句法分析層向其提供的服務,反垃圾郵件系統需要主題表示層向其提供的服務,而簡單的信息融合系統只需要物理結構層向其提供服務即可。以下是每個層次的簡要介紹。
物理結構層 物理結構定義了文檔各個部分的物理安排和布置。下面簡單地介紹物理結構層的輸入、運算和輸出。
物理結構層的輸入:具有各式各樣格式的電子文檔(例如,TXT , XML, ,HTML,字元掃描檔案,DOC, WPS, PDF等等)。
物理結構層的輸出:該層的輸出是文檔的物理結構。文檔的物理結構是由無格式的字元(例如,英文字母、漢字等)、字元對應的格式信息、輪廓信息組成。物理結構能夠識別出回車換行符,也就是說能清晰地區分開自然段。另外,物理結構應該標明原始文檔的語種(例如,英語、漢語等等),同時,如果語種是漢語,原始文檔的編碼格式(例如,GB , BIGS等等)也應該在物理結構中標出。
物理結構層的運算:電子文檔具有各式各樣格式,不便於信息處理。一般情況下,電子文檔包含了“多格式”的“異構信息”。物理結構層運算的任務就是這些“異構信息”的同構化,也就是用統一的規範來表示這些異構信息。總之,物理結構層的運算為開放式文檔同構引擎高層提供了規範的數據。
邏輯結構層 邏輯結構層定義了文檔的各個邏輯元素及其類別,其主要任務是識別出文檔各個部分的邏輯類別。
邏輯結構層的輸入:物理結構層的輸出。
邏輯結構層的輸出:該層的輸出是文檔的邏輯結構。邏輯結構標明了原始文檔各個部分的邏輯類別(例如,題目,作者摘要,作者信息,關鍵字,正文,各級標題,參考文獻等),並且用一棵邏輯結構樹來描述整個文檔。
邏輯結構層的運算:用機器學習的方法識別原始文檔各個部分的邏輯類別;識別出各級小標題有標號小標題和無標號小標題),並對小標題進行級別確定和糾錯處理;形成一棵能夠表達原文層次關係的邏輯結構樹。
詞句法分析層 詞法、句法分析(Lexical & syntactic Analysis)層:該層給出文本中各個句子的詞分割標記,詞性標註和句法標註。
大多數把詞法和句法分析孤立進行,雖然這樣也取得了非常不錯的結果,但是,我們認為句法和詞法本來就是不可分離的,綜合處理將會達到更好的效果。
概念抽取層 概念抽取層自動概括出文檔包含的概念。由於受地域、時間等社會因素的影響,廣泛意義上的詞已經非常泛化,有必要用概念把它們加以概括整理。
概念抽取層的輸入:詞法、句法分析層的輸出。
概念抽取層的輸出:由文檔中的詞轉化出的概念以及概念的幾個屬性(概念在文中出現的頻率、概念在文中的位置、概念的分布性)。
概念抽取層的運算:以知網(How-Net ) , WordNet,《同義詞詞林》為基礎構造概念庫。以概念庫為基礎,結合轉換算法求出文檔包含的概念,並給出概念的相關屬性。
主題表示層 主題表示層根據用戶的選擇,採用不同的方法計算出每個概念的權重,然後給出該文檔的向量空間模型(Vector Space Model--VSM)表示。該層還提供簡單的降維方法備用戶選擇。