概要,用途,消除信息孤島,“文標委”唱“武戲”,現狀,意義,價值,
概要
[font class="Apple-style-span" style="font-family: simsun; font-size: 12px; line-height: 18px; "]
在信息化時代,我們每天都要和各種電子文檔打交道。但是,對於很多人來說,經常會遇到這樣的情形,Word(微軟的文字編輯軟體)檔案無法用Excel(微軟的表格編輯軟體)來編輯;PDF(便攜文檔格式)檔案只能用Adobe公司的相應軟體打開;有時收到的文檔怎么也打不開,必須使用專門的瀏覽軟體和編輯軟體……各種文檔格式間彼此難以互聯互通,讓我們常常撞上文檔格式的“牆”。
用途
那么如何突破圍牆?答案就是制定文檔接口標準,讓各種文檔可以互聯互通。而UOML(非結構化操作置標語言)標準則是讓我們“跨越圍牆”的跳板。
消除信息孤島
說到UOML,要先說說信息的分類。按專家的說法,信息基本上可分為結構化數據、書面文檔和流媒體三大類,其中結構化數據占20%左右,其餘占80%左右。隨著信息技術的深入套用,文檔互操作已成為軟體業亟待解決的重大問題。UOML作為全球第一個針對非結構化信息進行處理的操作標準,給不同軟體之間的共享及互操作提供了一條可行之道。
中國電子技術標準化研究所信息化研究中心副主任吳志剛說,UOML是與資料庫技術重要性相當的IT業下一代核心技術。以UOML為操作標準的文檔庫技術,能夠完整描述所有能列印到紙上的信息,實現文檔互操作。不同軟體可以打開處理同一文檔,不同軟體之間可以實現信息共享及交換互操作。
文檔的互操作為什麼重要?這是因為世界上有1萬多種文檔格式,常用文檔格式有300多種。而各個廠商之間各自為政,遵循不同的標準,使得不同電子文檔之間的數據交換無法實現,還得藉助紙張。因此,每年浪費在印刷複印用紙上的費用超過千億美元。
在非結構化信息領域,Word、Excel、AutoCAD各有自己的文檔格式和操作方法,另外還有PDF等數百種文檔格式,每種文檔格式都被一種或幾種軟體所壟斷,甚至同一個產品的不同版本也不能完全兼容。因此,在信息流上就形成了大大小小的信息孤島。
對於一般用戶而言,電腦裡面裝有Word、Excel、Powerpoint、Photoshop這些軟體就基本夠用了,但是很難保證有一天不會收到WPS(文字編輯系統)的文檔,如果沒有安裝這種軟體就根本不可能打開這些檔案,但若僅為使用這幾個檔案而購買、安裝該軟體的話,付出與所得根本不成正比。儘管文檔格式的“諸侯割據”對絕大多數人來說已經司空見慣,但這種現狀對實現信息共享和利用帶來了巨大阻礙,進而影響了文檔信息產業的發展。
這樣的情況令TRS(拓爾思)這樣的內容管理企業都深感頭痛:面對市場上300多種常用的文檔格式,如何從這些文檔中提取信息,以便對各種文檔內容進行管理,已經成為一個難以逾越的障礙。
拿資料庫套用領域來說,IBM、微軟已經成為全球軟體業的骨幹,全球形成了每年150億美元的市場,而這一龐大市場的基礎——結構化信息的數量只占整個信息世界的20%,而占據信息世界80%的非結構化信息領域卻沒能形成如此強大的產業鏈。對此,業內專家認為,其阻礙主要來自文檔信息世界的割裂。
相比之下,不少企業站在關係型資料庫的肩膀上成功開拓了一片生存空間。大多數管理軟體企業自身並不擁有資料庫技術,但他們同樣在這一領域獲得了發展機會。像用友、金蝶等軟體公司,他們之所以有機會在套用市場站住腳,並發展到相當的規模,很大程度上得益於結構化資料庫的標準化使他們不必關注底層資料庫技術,只需要專注套用的功能性開發。
然而,在文檔領域,情況就不同了。包括WPS、中文2000等在內的一大批文檔軟體產品所面臨的生存困境以及軟體產業一致發展的目標,迫使IT產業去尋找一條新的有效途徑來打破這種文檔的“自治”。
“文標委”唱“武戲”
為了消除信息孤島,實現文檔的互聯互通,2007年4月4日,中國電子工業標準化協會文檔庫標準工作委員會(簡稱“文標委”)成立,負責UOML等系列標準的具體制定。UOML是我國在非結構化書面文檔信息領域首創的關鍵性操作接口標準,其面對的是一條艱難坎坷的國際化之路,業界戲稱“文標委”諸侯要“唱武戲”。
據“文標委”秘書長、中國UOML聯盟秘書長劉明娟介紹, UOML從一推出就獲得了市場的支持。目前,國內主流Office廠商,如金山、中文2000、中標、永中等都支持UOML標準,國內軟體不久將實現互聯互通。她強調,UOML聯盟不僅奠定了中國Office市場抵禦外強的堅實基礎,更使中國的信息化工作走出信息孤島。像檔案局這樣處理大量不同格式文檔的單位,不用擔心某一種軟體退出市場而面臨數據丟失,因為通過統一的操作標準,任何支持這個標準的軟體都可以打開這些文檔,不必將所有檔案列印保存。
國家863軟體重大專項專家組專家、文標委副主任委員韓乃平表示:事實上,UOML標準是一種類似於SQL的操作標準,由書生公司推出的SEP文檔庫是全球第一個文檔庫技術,是UOML標準的第一個成果。軟體通過調用UOML來操作符合SEP文檔庫定義的數學模型的所有文檔,使文檔套用開發和資料庫套用開發一樣簡單、高效。
中電標協文檔庫技術標準工作委員會主任王東臨說,在文檔套用體系中,在文檔和功能性套用之間,用文檔庫技術進行隔離,形成文檔套用的中間件技術:以UOML標準為連線,從而使文檔軟體擺脫文檔格式對套用的限制。軟體企業只需要專注於功能性的開發,這樣可以節省大量開發成本。同時,對於終端用戶來說,只要他使用的軟體是支持UOML的,他不安裝其他類型的軟體也可以進行各種操作。這就從軟體的操作層面實現了全套用鏈的互聯互通。
由於UOML對推進非結構化信息處理行業發展具有實際套用意義,UOML聯盟一成立就引起了相關企業的關注,從成立至今,已經有中科軟、紫光啟明、中文2000、漢王科技、中標軟體、共創開源、TRS、理光、書生等40多家文檔套用相關企業加盟。
鑒於SEP文檔庫技術是UOML的第一個成果,為了推動UOML套用,書生公司將為聯盟內企業永久性免費提供SEP文檔庫技術核心版本的支持,共同促進文檔信息互聯互通的實現和發展。也就是說,聯盟成員企業的軟體產品將可以通過支持UOML來調用文檔庫,從而輕易地操作其他任何一個成員軟體產品生成的文檔。這樣,用戶購買其中的任何一款軟體產品後,他不用為打開其他聯盟成員軟體生成的文檔再安裝其他軟體。
當然,UOML的影響不僅限於這種簡單的文檔套用,像TRS這些企業在對文檔信息進行管理時,也將不再困難。
現狀
文檔標準多足鼎立
目前,Office文檔標準有國際標準的ODF(Sun支持,主要依託Openoffice.org),以及已於去年9月1日成為國家標準、正式實施中文文檔標準的“標文通”(UOF),此外還有已批准成為國際標準的微軟的OOXML。版式文檔格式標準有已批准成為國際標準的Adobe的PDF,以及即將申請國際標準的微軟的XPS。現在,由原信息產業部立項的文檔接口標準UOML也已經得到國際產業界的認可,目前剛結束標準公示期,有望不久後成為行業標準和國際標準。
中國電子工業標準化協會文檔庫技術標準工作委員會主任、書生公司董事長王東臨表示:“現在雖然已經有了很多文檔格式標準,但只有UOML是文檔接口標準,UOML和其他文檔格式標準之間不存在競爭。和UOF(標文通)、ODF(開放文檔格式)一樣,UOML也是一種開放標準,開放標準之間的協作更加方便,基於這些格式的軟體也比較容易支持UOML。與UOF不同,UOML標準是從不同層面解決互聯互通問題,可以說,UOML和UOF是克服互聯互通難題的好夥伴。”
“對於任何格式的文檔,不需要它的軟體支持UOML,只要它能列印,我就可以把它轉換成UOML文檔。微軟不支持UOML,但它的文檔我們大家都可以用。如果要對轉換後的UOML文檔進行再處理、編輯的話,就需要支持UOML的軟體進行操作。”王東臨告訴記者。
也就是說,支持UOML的Office軟體可以操作其他軟體的文檔,不支持的則不能操作其他軟體的文檔。對於Office而言,理論上只要有一種軟體支持UOML就夠了,可以通過這個軟體操作其他任何格式的文檔,而其他不支持UOML的軟體就只能操作自己的格式文檔了。
專家指出,UOML的推廣,可以“有效保護”國產軟體,因為,通過UOML可以從一定程度上“禁止”微軟的市場影響。因為別人的文檔,微軟打不開,而微軟的文檔,別人可以打開。用戶在有需求的情況下,就不得不用基於UOML的軟體了。
因此,基於UOML的Office軟體可以“禁止”格式兼容帶來的可靠性問題。而且,UOML在Office軟體之外,還可以套用於包括圖像、圖表、地圖等檔案格式,這些格式檔案都可以通過UOML和Office檔案互相操作,這對於Office軟體來說,是做不到的,當然也包括微軟Office。
意義
推動軟體產業發展
UOML標準的制定還將加快推動我國軟體產業的發展。專家指出,我國的軟體產業經過近30年的發展,總體上有三缺:缺乏核心技術、缺少技術標準、缺乏國際競爭力。而標準是產業升級的一根“紅線”。
王東臨說,誰掌握了標準的主動權,誰就掌握了市場的主動權。今天的電子文檔信息處理技術產業和30年前的結構化信息產業發展狀況相似,由於缺乏統一的標準體系,電子文檔信息被禁錮在數千種文檔格式中,相互之間無法實現互聯互通。由於絕大多數套用廠商難以掌握更為複雜的電子文檔信息處理技術,導致對電子文檔信息的套用開發進展緩慢,現有的套用系統已經無法滿足市場對電子文檔的處理要求。
此外,目前在全世界的網路上,80%以上的信息為英文文本,漢語信息不足4%。而計算機、網路原本也是用英文設計的,如何讓我國的資料庫、文檔格式為外國人所用,讓基於中文的網站承載5000年文明的精華,讓中國文化更好地走向世界,這些都是我國面臨的問題。
要想解決這些問題,發展軟體產業、制定標準具有重要意義。從全球市場來看,為搶占軟體產業發展的先機,歐盟、美國和日本正不斷加大對技術和標準研發的投入,並且試圖通過成立行業聯盟和制定標準來控制整個產業走向。“技術專利化,專利標準化已經成為高新技術產業競爭的重要特徵。跨國公司也往往通過控制標準來保持競爭的優勢或者壟斷者的利益。”倪光南院士如此表示。
在這樣的情況下,業內人士認為,文檔庫技術及UOML標準的誕生,將使中國軟體產業在非結構化文檔領域打破國外軟體巨頭的壟斷,帶動形成一個超過資料庫產業的龐大產業,使中國企業在國際上占據主導地位,甚至改變世界軟體產業格局。而文檔庫系列標準及技術的套用,也將使軟體企業專注於功能的開發,減少文檔層面的重複性開發工作,提高全行業的效率,為我國電子文檔相關企業的發展帶來巨大的商機。
價值
劉明娟認為,文檔庫技術作為軟體產業的重要組成部分,在我國有一定的技術積累,在電子政務、電子商務、信息安全、企業信息化等領域都有廣泛套用的土壤。因此,加快我國文檔庫技術標準化步伐對推動我國文檔庫技術領域創新,提高我國軟體產業的核心競爭力具有十分重要的意義。但專家說,文檔庫標準的成敗取決於兩個方面的因素。
其一,正如中國工程院院士倪光南所說,標準成敗的關鍵是能否實現產業化。在國外軟體巨頭已經占領大部分市場的背景下開拓市場,市場占有率將成為檢驗標準的關鍵。應該說任何技術標準最終都得由市場檢驗,這就是說標準制定應該以企業為主體,市場為導向,這樣才能體現市場的需求和用戶的利益,真正在市場經濟中發揮作用。中國軟體行業協會秘書長鬍崑山認為,標準的推廣工作十分重要。如果沒有人套用、沒有人推廣,任何技術、任何標準都沒有意義。
其二,標準之爭就是利益之爭,標準化工作會使某些企業獲利。因此國內軟體企業要同心協力,不能互相拆台。
據記者了解,文標委正式成立一年多來,各項工作進展順利,UOML的第一部分——版式文檔操作規範已經公示完畢,按流程審定後即可頒布。UOML標準的其他部分也將陸續進入制定工作程式階段,並按照程式推動UOML在2009年申報ISO國際標準。
UOML聯盟主席王東臨:
新標準改變產業鏈
UOML所影響的不僅僅是一些企業,而是一條產業鏈,這就使其必然成為文檔套用軟體企業發展的墊腳石。
在大多數人眼裡,文檔套用等同於文檔編輯,但這種理解正如大多數網民不知道網站背後資料庫的重要性一樣。文檔編輯只是文檔套用中面向普通用戶的一角,它還涉及企業信息管理的方方面面。因此,它不可避免地影響與文檔管理相關的各種企業,如文檔數位化、文檔處理、文檔管理等一系列軟體企業。這意味著,並不僅僅是文字處理軟體,所有需要與文檔打交道的軟體套用都可能因為UOML的套用而發生改變。
根據企業在套用方面專注方向的不同,UOML聯盟為產業鏈中的五類企業——文檔信息採集類企業、文檔信息編輯類企業、文檔信息套用類企業、文檔信息管理類企業及系統集成套用類企業——提供了不同的支持方案。方案中除了提供免費的文檔庫技術開發包及技術支持之外,還提供了相關的產品及套用推廣方面的支持。
儘管各類方案的出發點不同,但實施的結果都體現出文檔庫技術及UOML標準存在的價值。首先,各類企業支持UOML標準軟體的研發工作一般一人一周即能完成。其次,對UOML的支持可使企業降低開發難度、維護成本、套用風險,提高適應性,達到不同軟體之間的高度互通和共享,從而提升業內的競爭能力,最終達到合作與發展的目的。同時這也是文檔庫技術最基本的目標和出發點。
就UOML對文檔信息產業鏈的影響而言,它不但將使文檔信息產業鏈的社會化分工成為可能,還將為更多的中小企業降低進入市場的門檻,發揮它們在某個方面的專業優勢,贏得發展機會。
封閉的、不能互聯互通的數字信息不再符合時代的需要,尤其是在信息世界中占80%的非結構化信息,針對其進行處理的技術是未來的核心技術。