引言 隨著中國經濟的高速發展,中國市場的競爭日益激烈,競爭的方式將從
企業 的外延比如統一、高效的營業服務
系統 ,向
企業 的內涵比如管理決策方面轉移。國內各個機構近幾十年投入巨資大力發展IT套用,已經初步建成了各自統一的營業服務
系統 和企業內部
信息 傳遞
管理系統 ,經過多年的運行積累,
存儲 了海量的信息資源。由於歷史的原因,這些海量的
信息 資源管理分散、共享困難,形成彼此隔離的信息孤島。科學管理和合理開發這些
信息 資源尤其是大量的、
非結構化數據 信息,是國內
企業 界面臨的巨大挑戰。
推動業務發展的是
信息 ,即存入
傳統資料庫 中的“結構化”數據和包括可用信息庫中內容的“非結構化”數據。顧名思義,
非結構化數據 的管理也就是我們在本方案中所提及的內容管理。
對
企業 搜尋形式和內容進行了深刻思考,並經歷了企業搜尋在企業的套用研究與實踐,形成了一套完整的
企業搜尋平台 (Enterprise Search Platform,簡稱ESP)。通過管理實施和內容整合兩個方面來提升客戶
企業 提升核心競爭力和業務支撐能力。在管理實施方面,通過對
企業 內容的管理規劃和實施諮詢,實現企業管理水平的快速提升。在內容整合上面,專注於“
企業搜尋平台 ”產品的研發和實施,實現內容為企業價值服務的目標。
產品,是基於
企業 搜尋理論基礎之上,通過對企業內容整合,配置超過50種文檔類型,搭配各種
數據 索引方式,輔之以可靠的
安全策略 ,構建一套完整的
企業搜尋平台 ,為客戶提供完整的、智慧型的、安全的、強大的企搜尋服務。
挑戰 在全球經濟危機的影響下,
企業 IT 投資 預算將會大大降低,套用
系統 集中化、
數據 管理集中化、IT 管控集中化等越來越受到
企業 的關注,在通過 ERP 整體解決方案的實施解決業務支撐一體化的同時,企業也迫切需要一個可以實現內外資源整合的高效 IT 工作平台,以提升管理支撐的能力。具體表現在:
1) 需要一個統一接入和訪問的 IT平台
多年的
信息 化建設導致企業的套用
系統 往往比較多,訪問方式多樣,越來越多企業和員工希望有一個統一的訪問方式,只需要輸入一次
帳號 就可以根據自己的許可權訪問各種套用系統,更進一步則希望能夠根據自己的需求組織套用功能和操作界面,方便使用。
2) 高效的業務協同管理工作平台
企業 各個業務線、部門都存在大量的流程,一方面希望實現業務線內、部門內流程的固化,提高內部協作的效率,另一方面迫於市場和競爭的壓力,更希望能夠實現跨業務、跨部門、跨
系統 的流程管理,從而提高企業整體運作效率。
3)需要加強各種文檔類資料的統一管理
過去在
信息 化建設過程往往重視人、財、物這些有形的物質資產的數位化管理,忽視了業務活動過程中產生的大量文檔類資料的管理,容易引起類似員工流失帶走知識、急需某文檔卻找不到的現象,無形中增加
企業 成本,因此需要實現對企業內外的文檔資料、專家經驗進行有效的獲取、沉澱、共享、套用、學習和創新,從而提高員工的素質和技能、執行力。
隨著
企業 各類套用
系統 積累的
數據 越來越多,數據的準確性、統一性、及時性問題越來越突出,需要一個平台能夠實現對數據的統一管理, 向業務人員和管理人員提供及時、 準確、多維度的各種業務數據,通過數據集中展現與分析發現生產、 經營中的問題, 便於領導決策。
經濟危機、激烈的市場競爭給
企業 帶來巨大壓力,提高 IT 基礎設施、套用
系統 採購的性價比,減少系統維護及維護人員成本,降低業務人員掌握 IT 的學習成本,將有助提升企業IT建設的
投資 回報,使IT建設和價值更好地得到企業的認可。
價值 企業 信息 源的日益多元化令管理者和員工查找信息的成本越來越高;而
網際網路 搜尋的模式是如此簡單,使用者只要輸入一個關鍵字並按下 Enter 鍵,
系統 就會自動地將符合的結果列出,即使面對的是數千萬的網頁,入口網站依然在一秒內就完成查詢。通用的
網際網路 搜尋引擎對人們使用習慣的巨大影響力使Google化的
企業 搜尋成為企業用戶的夢想。
但是當公司真要導入時,卻發現
系統 的複雜度遠超過先前的想像,常會因為評估期過程太長而導致項目無疾而終。雖然
企業 信息 搜尋複雜,但
信息 利用的成本/收益分析證明企業搜尋不僅必要而且重要。Web 2.0的模式不斷滲透
企業 日常行為,大量
數據 、信息和知識的電子化,其帶來的知識共享訴求要求企業搜尋深入參與企業知識建設。
圖一、問題與挑戰
對多數的
企業 來說,在購買企業搜尋引擎時的出發點都很簡單,往往只是要解決幾個典型的問題,比如:
2. 公司內
數據 越來越多難以管理,且儲存在不同計算機內。
3. 離職員工的檔案
數據 已完成備份,但想使用時卻難以發現。
4. 同一份檔案需要重複的提供給不同的人。
5. 不同部門對內部檔案都有自己的管理方式,難以整合。
企業 內容
檢索 的套用,能夠通過對企業內容的有效整合,搭建一套安全的基於角色的、統一可靠的的檢索入口訪問企業內容。產品專注於提高
企業 內容利用效率,提升企業產能和效益,以企業內容管理為基礎,以套用開發為平台,全面幫助企業實現價值最大化。
經過多年的行業套用和演變,提出四大核心競爭優勢:
企業 級安全(靈活可擴展的用戶體系、
基於角色的訪問控制 、文檔級/記錄級的許可權級別),
更高的準確性和智慧型化 (概念檢索、基於
統計 的中文語言處理、主題抽取算法),
穩定強大 全文檢索 功能(優異的性能、T級
數據 支撐能力、亞秒級回響
速度 ,7*24全年穩定運行),
低成本高靈活度的按需定製 (強大的接口擴展能力、
集群 、分散式按需擴展)
定位與目標 專注於為
企業 提供一套完整的企業搜尋平台,包括企業內容採集、內容
存儲 、文檔管理、語言處理、安全管理、統一檢索門戶、套用開發平台等。
其中:
統一檢索: 以多個分散式異構
數據 源為對象,向用戶提供統一的檢索接口,將用戶的檢索要求轉化為不同數據源的檢索表達式,並發地檢索本地、區域網路和
廣域網 上的多個分散式異構數據源,並對檢索結果加以整合,在經過消重和排序等操作後,以統一的格式將結果呈現給用戶的檢索。更能夠為不同用戶提供不同的界面展現方式,即滿足通用檢索需求,又能夠實現個性化需要。
語言處理: 中文分詞 是
企業 搜尋必須具備的技術之一,套用中文分詞技術才能使搜尋結果更加符合用戶習慣,更加接近用戶的期望結果,產品集成了中文分詞技術,並有著40萬詞庫的支持,用戶也可以根據自己的需要和行業特色來添加和維護詞庫。
中文分詞 技術的準確率達到96%以上。
安全 系統 :實現了各類文檔、資料、
數據 等
信息 的訪問安全,採用獨創的分級安全體系來保障不同安全級別的信息必須經過授權才能夠訪問;通過對檢索結果進行文檔級安全和集合級安全的分類來實現授權體系的靈活與強大功能。更能夠與絕大部分業務
系統 的用戶體系整合,並可以繼承原有的許可權系統,支持LDAP、
數據 庫、Domino等。
內容 存儲 :實現各類文檔、資料、數據等
信息 的分散式存儲,是能夠最大限度地提高部署靈活性和可擴展性,所有的元數據和
全文索引 分別存儲在不同的單元上。支持主流
數據 庫平台、操作
系統 、
瀏覽器 、門戶、應用程式伺服器和開發標準,從而提供了一個不受供應商限制的體系結構。 這一靈活性可保護您在現有 IT 基礎架構中的
投資 , 進而可降低總體擁有成本。
文檔管理 :超過50種文檔類型的支持,通過將文檔元
數據 和索引
信息 進行分開
存儲 實現了強大的元數據管理功能,輔以基於文檔安全級別的控制體系,對文檔的整個生命周期進行全面管理。能夠通過創新的回溯功能查看文檔的
歷史版本 ,嚴格的法規遵從策略,全面提升
企業 文檔到知識的轉換能力。
內容採集: 除了支持所有主流
數據 庫和檔案
系統 的採集以外,還支持內容倉庫的採集,支持Domino、Documentum等
企業 內容管理中的數據,能夠針對指定檔案所在目錄進行高效檢索,並內置檔案解析器,可對PDF、OFFICE、HTML、TXT、
音頻 、視頻等多種
檔案格式 自動解析。同時根據需要能夠定製從其它各類
數據 源獲取要檢索的數據內容,例如:XML檔案、其它數據池等等。即使在同一個套用中,也可以通過配置同時從多個
數據 源獲取數據並提供
檢索服務 。
套用開發平台: 是一個完整的
企業搜尋平台 ,能夠完成企業內容整合過程的絕大部分功能,將功能強大的作為整個解決方案的套用基礎,充分利用其底層套用功能,並封裝為更易於使用的服務來提高套用開發的效率,更好地滿足不斷變化的業務需求。
套用架構 堅持以人為導向的設計原則, 以滿足不同使用者套用需求的
企業 搜尋入口為統一展現手段,以開放的套用開發平台為套用支撐,提供經過安全級別控制與過濾的安全檢索、管理企業內容和知識,根據企業實際需求拓展內容管理、知識管理、協同套用等大量功能,通過內容整合技術實現對企業 ERP、PDM、CRM等業務
系統 的
數據 和流程。以靈活、方便、快捷地方式組合套用,滿足
企業 管理支撐的各種業務需要。
功能架構如下圖所示:
圖四、套用架構
圖五、非結構化內容處理
部分功能列表 為
企業 提供全面的管理支撐套用,具有豐富的套用功能模組,以滿足不同企業在不同時期的業務需求,企業根據需求靈活地組合各種套用模組構建適合自己的套用解決方案。下表是部分功能清單及簡單功能描述。
編號
名稱
功能說明
-F01-0
內容採集
實現企業環境中的各種數據源的數據採集功能
-F01-1
本地檔案採集
對本地檔案系統中的檔案進行採集和文本處理
- F01-2
網路檔案採集
對網路環境中的檔案系統進行採集和文本處理
-F01-3
FTP採集
擴展網路採集類型,支持對FTP環境存儲的檔案進行採集和文本處理
-F01-4
POP3採集
擴展網路採集類型,能夠對支持POP3協定的郵件系統中的郵件進行採集,支持SSL方式的連結協定
-F01-5
Domino採集
採集BM Domino系統中的內容
-F01-6
Documentum採集
採集EMC Documentum系統中的內容
-F01-7
Mysql採集
採集Mysql數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F01-8
Oracle採集
採集ORACLE數據,支持按主鍵採集和按更新時間戳採集,支持ORACLE的各個版本,自動採集,支持任務調度模式。
-F01-9
SQL Server採集
採集SQL Server數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F01-10
DB2採集
採集DB2數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F02
內容檢索
-F02-1
關鍵字檢索
標準的關鍵字檢索功能,支持任意欄位的檢索,支持日期和數字類型的關鍵字檢索,支持範圍檢索
-F02-2
全文搜尋
企業內容的全文檢索,支持千萬級的數據量,簡單檢索回響時間為亞秒級,海量數據,瞬間展現
-F02-3
檢索統計
檢索結果分組統計,支持多種數據類型的分組統計功能,無數據量限制。
-F02-4
分類檢索
人工堆數據內容分類,檢索能夠在分類下進行,能夠對分類授權。只有具有分類授權訪問的用戶才能夠使用分類檢索功能
-F02-5
檢索安全分級
嚴格控制檢索結果記錄的安全性,默認分為5個級別,第五級為最低級別,所有用戶都可以訪問,最高位第一級,只有用戶的安全級別為第一級採集可以訪問。
-F02-6
檢索過濾
安全訪問功能,檢索結果能夠被授權用戶訪問,通過與第三方用戶體系和角色系統集成,實現信息的訪問安全
-F02-7
檢索結果反顯
檢索結果按用戶自定義方式進行反顯
-F02-8
任意欄位排序
檢索結果排序功能,支持任意數據類型
-F02-9
日期分組統計
檢索結果按照日期進行分組統計,例如:年度分組統計
-F02-10
數字分組統計
檢索結果按照數字範圍進行分組統計,例如:年齡段分組統計
-F02-11
主題分組統計
檢索結果按照主題進行分組統計,例如:公司新聞訊息中關於市場推廣活動的統計
-F02-12
跨庫檢索
支持對異構數據系統的統一檢索,例如:對萬方、維普等第三方檢索系統的異構數據集成
-F02-13
分散式檢索
支撐海量數據,能夠通過多級分布方式提升系統的數據處理能力,能夠以低成本的方式按需擴展系統
-F02-14
個性化搜尋
獨有的功能,不同用戶或不同角色可以定義不同的檢索結果展現方式。
-F02-15
快速預覽
快速預覽檢索結果,即快照功能
-F02-16
授權原文下載
獲得授權的用戶,能夠對原文進行下載
-F03
系統管理
-F03-1
角色管理
系統登錄用戶角色管理,也可以和外部系統整合作為映射參數
-F03-2
用戶管理
系統用戶管理
-F03-3
用戶級別管理
系統安全級別,用戶安全級別,系統信息訪問分級參數
-F03-4
用戶界面定義
自定義用戶檢索前台,系統支持不同用戶訪問不同前台檢索界面
-F03-5
角色界面定義
為角色定義安全級別、默認角色使用的檢索界面
-F03-6
採集策略定義
定義採集執行緒數、採集記憶體使用量、記憶體使用總量等參數
-F03-7
系統郵件設定
系統傳送郵件時使用的 SMTP賬號、密碼、發件人郵件地址等信息
-F04
核心擴展
-F04-1
檢索模板定義
-F04-2
文檔格式定義
-F04-3
元數據定義
-F04-5
語言處理接口
-F04-7
資料庫驅動
-F04-8
數據採集器
-F04-9
語言分析
-F04-10
檔案解析
-F04-11
數據處理
-F04-12
文本處理
-F04-13
身份驗證