基本介紹
- 中文名:知識搜尋引擎
- 外文名:Knowledge search engine
- 特點:並非單純的是一種搜尋工具
- 性質:一種實現理念與工具
CICADA知識搜尋引擎的誕生背景,企業知識迅猛增長,總量超過網際網路數據總量,僅靠網路搜尋不能解決全部問題,獲取準確的知識成為提升企業核心能力的要件,CICADA知識搜尋引擎應運而生,CICADA的產品介紹,CICADA的核心理念與功能,CICADA的核心理念,可維護、學習式分詞技術,多數據源跨域搜尋,基於跨域搜尋的知識門戶,基於身份與許可權的識別,互動學習式搜尋引擎,基於搜尋引擎統計的決策支持,個性化搜尋套用功能,CICADA的性能指標,搜尋引擎使用技巧,簡單查詢,使用雙引號用(" "),使用加號(+),使用減號(-),使用通配符(*和?),使用布爾檢索,使用括弧,使用元詞檢索,區分大小寫,
CICADA知識搜尋引擎的誕生背景
企業知識迅猛增長,總量超過網際網路數據總量
根據統計,企業數據每年以200%的速度增長,其中80%以上的數據以檔案、郵件、圖片等非結構化數據存放在企業內計算機系統中的各個角落。而且這些數據總量遠遠超過了網際網路信息的總量。有數字表明,企業發布到網際網路的信息只占到信息量的1%-2%,而98%以上的信息是存儲在企業內部的。
僅靠網路搜尋不能解決全部問題
網際網路搜尋引擎近年來獲得快速發展,以及其覆蓋網際網路人口面積的迅速擴張,使得我們一提起搜尋引擎就想到了百度、谷歌這樣的網際網路搜尋引擎,有什麼疑難問題在網際網路上就可以找到答案。然而,實際上網際網路搜尋引擎不能解決全部的問題,如企業內部的規章制度、項目文檔、工作經驗等,作為企業的知識財富,是不可能通過網際網路獲得完美答案的。
獲取準確的知識成為提升企業核心能力的要件
企業或組織經過多年的運作,積累了大量的運營、工作、生產、研發的經驗與知識,這些信息內容散落在企業的各個伺服器、IT系統,甚至個人的電腦中,這些寶貴的知識財富日益成為指導企業員工行動、減少操作失誤、提升工作效率、降低運營成本的重要依託,如何快速、準確的讓員工獲得工作所需知識,已經成為企業是否能夠建立快速回響機制、快捷低成本運作的重要一環。
CICADA知識搜尋引擎應運而生
知識搜尋是在搜尋引擎發展進入智慧型化階段的過程,是建立在明確的知識來源基礎上,根據明確的用戶身份與訴求,回饋恰當知識結果的搜尋引擎,更為強調知識的準確、標準,強調通過互動機制如評價、交流、修改、維護等進行搜尋結果的自我學習,以達到知識搜尋的智慧型化。
深藍海域在知識管理和知識管理技術領域擁有多年積累,依據知識管理理念推出的知識搜尋引擎正是為了解決“匯聚多類知識源,依據用戶身份與訴求,回饋準確知識,指導用戶行動”這一命題而生,知識搜尋引擎作為搜尋引擎的一個分支,在為企業提供準確知識獲取方面將起到不可或缺的作用。
CICADA知識搜尋引擎與其他搜尋引擎辨析與任何市場和工具一樣,細分是搜尋引擎的未來不可避免的趨勢,就目前市場範圍而言,搜尋引擎大概可以分為如下幾類:
網際網路搜尋引擎:通過索引全球網際網路上的信息,為網際網路用戶提供快速檢索、查找、推薦的服務,其核心訴求是為用戶提供更全、更快、更準的信息。
垂直搜尋引擎:網際網路搜尋引擎的一個市場分支,通過索引特定的細分網站類型,為用戶提供專業領域的信息查詢服務,其核心訴求是為用戶提供專業、全面、快速的信息。
企業搜尋引擎:通過索引企業內部的信息源,為企業內部或企業關聯的用戶群提供特定的信息查詢服務,其核心訴求是為用戶提供企業內部信息的準確、快速定位。
知識搜尋引擎:是企業搜尋引擎的一個分支,不僅僅是要實現企業範圍的信息搜尋引擎,更重要的是實現企業的知識管理以及知識發現,並將這些知識套用於協助、指導企業運作。
下面我們通過一個對比表格了解一下這幾種搜尋的特徵區別:
對比項 | 網際網路搜尋 | 垂直搜尋 | 企業搜尋 | 知識搜尋 |
核心訴求 | 查全 | 專業 | 準確 | 解決問題 |
用戶解析度 | 大部分要自主分辨,對比 | 專業領域的協助分辨對比 | 通過數據源減少分辨對比 | 通過知識源、知識互動、用戶身份等減少解析度 |
數據源 | 網際網路上的網頁及特定文檔類型信息 | 專業領域的網站網頁信息 | 企業內部各種IT系統的信息。 | 組織內部IT系統、知識文檔、來源於崗位和部門知識等。 |
信息類型與接口 | 網際網路通訊協定 | 網際網路通訊協定 | 資料庫、檔案系統、oa、ERP等不同類型的接口 | 資料庫、檔案系統、oa、ERP等不同類型的接口 |
互動性 | 以搜尋引擎方獲取用戶行為為主,單項互動。 | 以搜尋引擎方獲取用戶行為為主,單項互動。 | 以獲取用戶行為、用戶身份為主,單項互動。 | 以用戶身份、行為、知識互動評價等作雙向、多向互動。 |
安全性 | 禁止部分違法信息外,無安全考慮 | 禁止部分違法信息外,無安全考慮 | 考慮用戶許可權、身份等保障信息安全 | 除許可權、身份安全外,要考慮知識套用後的結果安全 |
決策支持 | 對信息獲取者提供參考 | 對信息獲取者提供專業參考 | 對信息獲取者提供內部參考;對決策者提供基於搜尋統計的決策支持 | 對信息獲取者提供知識級、標準級參考;;對決策者提供基於知識用用的決策支持 |
身份性 | 弱,通過用戶行為或註冊信息獲取部分身份。 | 弱,通過用戶行為或註冊信息獲取部分身份。 | 強,通過用戶的崗位、角色等信息獲取身份。 | 較強,通過用戶的崗位、角色、知識套用經歷等獲取身份。 |
CICADA知識搜尋引擎介紹
CICADA的產品介紹
CICADA,蟬,同“禪”出自佛家,故稱“知了”,意即知道、理解、開悟。對於知識管理或搜尋引擎而言,能夠達到讓使用者“知了”的地步是一個最重要、最核心的目的。
CICADA是一款面向企業和組織套用,以知識(knowledge)源、信息(information)源為依據對象,以獲取準確的、具有指導和決策意義知識信息為目的,通過知識搜尋結果指導人正確行動(action)的新一代知識搜尋引擎。基於CICADA核心引擎構建,由國內著名知識管理軟體企業深藍海域公司耗時3年研發,擁有自主智慧財產權並取得了國家頒發的軟體著作權(登記號:2009SRBJ0243)。
CICADA系統技術架構採用標準的輕量級J2EE架構,核心引擎採用深藍海域自主開發的企業級多介質搜尋引擎。能夠在多種數據媒介中搜尋數據,並進行合理比對,篩選,排序,結合我們知識管理方面累積多年的專業詞庫,能為客戶定製出更人性化、智慧型化的搜尋引擎。
CICADA已經廣泛套用於金融、銀行、製造、電信、汽車、電子政務、快速消費品、醫藥、能源、化工、房地產、服務業等行業和領域,為客戶提供穩定、快速、準確的知識搜尋服務。
CICADA的核心理念與功能
CICADA的核心理念
CICADA的構建理論基於“全文搜尋+資料庫檢索+搜尋套用”。全文搜尋的誕生和資料庫在大文本檢索時的效率不高有極大的關係,在這個角度全文搜尋成為了資料庫搜尋的有力補充。但是全文搜尋並不能完全代替資料庫檢索在企業級套用里的作用,比如在準確檢索所屬部門、分布時間段、作者這樣的精確欄位時,或者要求按照某一欄位邏輯進行結果的排序,全文搜尋的模糊性就會帶來很大的困擾和不精確性。在套用網際網路搜尋時,我們可能不存在也不可能做到這樣精準的欄位要求,但在企業級套用中這種需求就比比皆是。從理論角度上來說,全文搜尋和資料庫搜尋兩者在套用條件不同的情況下表現互有優劣,其中一方不會被另一方完全代替,而是應該相輔相成互為補充,為用戶呈現最精準的知識和信息獲取。
對於企業級用戶而言,僅僅是搜尋結果集的呈現還遠遠不夠,因此CICADA提供了豐富的搜尋套用,通過豐富多彩的套用形式,為用戶提供不同角度、不同體驗的搜尋方式,如搜尋引擎時光隧道、個人搜尋年輪、知識關聯、個性化查詢器等,通過這些套用提升用戶感受,強化系統和用戶之間的互動關係。
CICADA的搜尋流程示意圖
可維護、學習式分詞技術
與英文的自然分詞不同,中文分詞存在著眾所周知的難度,把中文的句子切分成有意義的詞,就是中文分詞,也稱切詞。目前還是一個難題———對於需要上下文區別的詞以及新詞(人名、地名等)很難完美的劃分。國際上將同樣存在分詞問題的中國、日本和韓國並稱為CJK(Chinese Japanese Korean)。分詞機制的好壞,直接影響到用戶對搜尋結果的滿意度,所以如何分詞是搜尋引擎的重中之重。
分詞方法 | 基於字元串匹配分詞 | 基於理解的分詞 | 基於統計的分詞 |
歧義識別 | 差 | 強 | 強 |
新詞識別 | 差 | 強 | 強 |
需要詞典 | 需要 | 不需要 | 不需要 |
需要語料庫 | 否 | 否 | 是 |
需要規則庫 | 否 | 是 | 否 |
算法複雜性 | 容易 | 很難 | 一般 |
技術成熟度 | 成熟 | 不成熟 | 成熟 |
實施難度 | 容易 | 很難 | 一般 |
分詞準確性 | 一般 | 準確 | 較準 |
分詞速度 | 快 | 慢 | 一般 |
Cicada知識搜尋引擎系統採用“Cicada's wings knife”作為分詞器,取其分詞快捷、細緻之意。這套分詞系統採用了“基於字元串匹配分詞和統計分詞”相結合的方式。利用統計方法進行詞典的動態擴展,即對搜尋的辭彙頻率進行自主的閾值設定,對於超過閾值的辭彙自動加入學習詞庫,從而克服了基於詞典算法對"完全詞典"的依賴,利用詞典對統計的一些參數進行學習評估,避免了以往靠實驗得到這些參數的不確定性,同時將RMM算法與統計算法結合起來。除了通過自主學習獲得新詞以外,也可以通過手工維護的方式對專業詞庫進行維護。目前,Cicada的基本分詞詞庫已經達到50萬條,金融、稅務、製造、諮詢等專業詞庫達到了20萬條左右。
對比項 | Cicada's wings knife | Standard (Lucene) | CJK (Lucene) | Paoding |
分詞速度 | 快 | 非常快 | 快 | 快 |
分詞準確性 | 好 | 差 | 差 | 較好 |
歧義識別 | 一般 | 差 | 差 | 差 |
新詞識別 | 好 | 差 | 差 | 差 |
需要詞典 | 需要 | 否 | 否 | 需要 |
需要語料庫 | 需要 | 否 | 否 | 否 |
需要規則庫 | 否 | 否 | 否 | 否 |
算法複雜性 | 複雜 | 簡單 | 簡單 | 一般 |
技術成熟度 | 成熟 | 成熟 | 成熟 | 成熟 |
實施難度 | 大 | 小 | 小 | 中 |
學習能力 | 強 | 弱 | 弱 | 弱 |
可維護性 | 強 | 弱 | 弱 | 中 |
多數據源跨域搜尋
經過多年的IT建設後,組織中會存在各種IT系統,如OA、HR、ERP、CRM、PM、財務系統等,這些系統因為建設時期、項目的不同,平台異構、數據分散等特徵非常明顯,形成了數據孤島,彼此之間無法通過一個有效的紐帶聯繫起來,無法同時獲取多個系統中的信息,Cicada知識搜尋引擎通過跨域、跨庫的索引能力,實現跨庫搜尋,一舉構建出一個融會貫通的企業信息渠道,消除信息孤島。
基於跨域搜尋的知識門戶
基於CICADA的企業(知識)門戶示意圖
基於身份與許可權的識別
在知識庫系統或其他系統中,在企業級套用系統中,用戶都有自己明確的身份與許可權,這決定了我們可以通過判斷他們不同的身份和許可權,為其提供適合身份和許可權的搜尋套用,返回適合其身份和許可權的結果,避免越權獲取信息的情況產生,而且對其身份許可權的判斷能夠更好的為用戶推送準確信息,避免信息集合過大。
互動學習式搜尋引擎
在知識管理或企業IT套用過程中,我們對各類知識與信息的套用效果有明確的感知與評價,在CICADA中,我們將這種感知與評價通過系統的方式記錄下來,反饋給搜尋引擎進行合理化處理,經過這樣的互動點評知識可以綜合熱度、好評度、命中率等因素進行加權計算,從而提供給用戶合理的結果排序,讓常用的、好評度高的知識自動往前排。
基於搜尋引擎統計的決策支持
知識搜尋引擎對用戶的搜尋行為,關鍵字的分布等進行統計分析,對知識庫的重點建設、發展方向從用戶的需求角度給予數據支持和決策信息。這樣形成企業知識在組織層面的增值利用與決策支持。
個性化搜尋套用功能
定製搜尋範圍:用戶可以根據自己的要求,選擇想要搜尋的知識範圍,而不是每次都搜尋全部資料庫,這樣可以大大減少搜尋誤差,可以根據業務或知識分類,定義出不同的個性化搜尋項。
搜尋推薦服務:根據搜尋過程的監控,推薦搜尋的熱點辭彙;搜尋行為推薦可以推薦搜尋當前辭彙的用戶,還搜尋了哪些辭彙;推薦跟當前關鍵字相關聯的關鍵字。通過主動的推薦服務,讓用戶可以快速的找到自己所需。
搜尋聯想詞。記錄搜尋人員常用的搜尋關鍵字,當用戶輸入關鍵字的時候,自動聯想提示其他用戶常用頻率較高的搜尋關鍵字,以供選擇。以高頻率的關鍵字引導用戶使用,提高命中率。
邏輯關係高級搜尋功能:支持包含、完全包含、至少包含一個、不包含等搜尋的邏輯關係,便於用戶根據自己的查詢條件,設計查詢公式。
在結果中搜尋功能:在搜尋的結果中,進行二次篩選式搜尋,實現遞進式的搜尋命中。
個性化查詢器:用戶可以根據自己的使用習慣,將系統提供的查詢條件進行組合後,保存為一個個性化查詢器,輸入關鍵字後,系統會按照查詢器的條件組合進行搜尋。
時光隧道:用戶可以按照時間軌跡對搜尋結果進行排序,查找到距離自己最近或者某個時間段的具體信息,排除其他非所需時間段的信息。
CICADA的性能指標
深藍海域知識搜尋引擎系統基於JAVA核心,解決海量信息檢索,在民生、光大等銀行知識庫套用中表現出優異的性能,在普通部門級單台伺服器環境下,其主要性能指標項如下:
序號 | 指標項 | 指標值 |
1 | 搜尋速度 | 1千萬條記錄情況下的查詢速度為毫秒級,客戶端回響小於2秒 |
2 | 索引能力 | 創建100萬條記錄的索引只需3~4分鐘 |
3 | 分詞能力 | 每秒分詞1200k,準確率98% |
4 | 並發能力 | 支持100個並發,約2000人線上搜尋 |
5 | 準確返回率 | 所指定查找結果(TREC)應在前10條信息之內的命中率達到95%以上。 |
6 | 良好集成能力 | 與其他系統進行界面、用戶和數據層的集成 |
在系統集成方面,CICADA可以通過系統集成的方式,與其他IT系統進行界面、數據、通訊層面的集成互動,從而實現無縫集成。本搜尋引擎單獨部署為一個套用.通過特定的信道監聽,實現索引的更新。採用webservice方式提供搜尋服務,與原知識系統解耦,避免對原有系統造成衝擊,也能夠更好的發揮搜尋引擎效能。
CICADA的核心採用深藍自主研發的高性能搜尋引擎,與常見的開源搜尋引擎如luncen等對比,我們具有以下幾個方面優勢:
一索引效率.我們採用R-Tree數據結構和R-Tree空間索引的算法.支持高維數據空間;有效分割數據空間,來適應索引的組織;高效的實現多種查詢方式系統中的統一。故在索引效率和查詢效率上略優與Lucene.
二智慧型搜尋. CICADA 具備關係查詢、布爾鄰近查詢、文檔相似度比較、以及文檔的自動分類等特性。Lucene要在下一個版本才提供相關支持。
搜尋引擎使用技巧
簡單查詢
在搜尋引擎中輸入關鍵字,然後點擊“搜尋”就行了,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含著許多無用的信息。
使用雙引號用(" ")
給要查詢的關鍵字加上雙引號(半角,以下要加的其它符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜尋引擎的文字框中輸入“電傳”,它就會返回網頁中有“電傳”這個關鍵字的網址,而不會返回諸如“電話傳真”之類網頁。
使用加號(+)
使用減號(-)
在關鍵字的前面使用減號,也就意味著在查詢結果中不能出現該關鍵字,例如,在搜尋引擎中輸入“電視台-中央電視台”,它就表示最後的查詢結果中一定不包含“中央電視台”。
使用通配符(*和?)
通配符包括星號(*)和問號(?),前者表示匹配的數量不受限制,後者匹配的字元數要受到限制,主要用在英文搜尋引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。
使用布爾檢索
所謂布爾檢索,是指通過標準的布爾邏輯關係來表達關鍵字與關鍵字之間邏輯關係的一種查詢方法,這種查詢方法允許我們輸入多個關鍵字,各個關鍵字之間的關係可以用邏輯關係詞來表示。
and,稱為邏輯“與”,用and進行連線,表示它所連線的兩個詞必須同時出現在查詢結果中,例如,輸入“computer and book”,它要求查詢結果中必須同時包含computer和book。
or,稱為邏輯“或”,它表示所連線的兩個關鍵字中任意一個出現在查詢結果中就可以,例如,輸入“computer or book”,就要求查詢結果中可以只有computer,或只有book,或同時包含computer和book。
not,稱為邏輯“非”,它表示所連線的兩個關鍵字中應從第一個關鍵字概念中排除第二個關鍵字,例如輸入“automobile not car”,就要求查詢的結果中包含automobile(汽車),但同時不能包含car(小汽車)。
near,它表示兩個關鍵字之間的詞距不能超過n個單詞。
在實際的使用過程中,你可以將各種邏輯關係綜合運用,靈活搭配,以便進行更加複雜的查詢。
使用括弧
當兩個關鍵字用另外一種操作符連在一起,而你又想把它們列為一組時,就可以對這兩個詞加上圓括弧。
使用元詞檢索
大多數搜尋引擎都支持“元詞”(metawords)功能,依據這類功能用戶把元詞放在關鍵字的前面,這樣就可以告訴搜尋引擎你想要檢索的內容具有哪些明確的特徵。例如,你在搜尋引擎中輸入“title:清華大學”,就可以查到網頁標題中帶有清華大學的網頁。在鍵入的關鍵字後加上“domainrg”,就可以查到所有以org為後綴的網站。
其他元詞還包括:image:用於檢索圖片,link:用於檢索連結到某個選定網站的頁面,URL:用於檢索地址中帶有某個關鍵字的網頁。
區分大小寫
這是檢索英文信息時要注意的一個問題,許多英文搜尋引擎可以讓用戶選擇是否要求區分關鍵字的大小寫,這一功能對查詢專有名詞有很大的幫助,例如:Web專指全球資訊網或環球網,而web則表示蜘蛛網.