全文索引主要解決文字信息的搜尋問題,結構化信息的檢索依託資料庫的索引技術實現,對於文檔類的信息,就需要轉換為結構化信息的全文搜尋來完成。
為了提高索引的效率,套用了基於字典的關鍵字索引,引進分詞技術,同義詞和停止詞技術,這樣做主要目的是減少索引的個數,通過詞的引入減少倒排序的存儲來實現效率的提升。關鍵字的搜尋,沒有考慮字詞之間的關係,沒有語義方面的考量。
全文索引隨著數據量的增大,會出現效率低下的問題,為了提高效率,會修改配置,降低索引的維度和次數來提高,例如給定關鍵字條索引,自動分析文檔編寫摘要,用摘要索引來代替全文索引。為了保證搜尋匹配的效率, 有效的索引方法是十分關鍵的, 特別是需要考慮語義匹配的時候, 索引就會變得更為複雜。
一般來說的全文搜尋服務,大體是基於字和關鍵字的,α文搜尋提供基於語句的全文搜尋服務。以文字為最小節點,以語句為分枝,建立語義樹,提供基於語義樹的全文檢索服務。通過對語句進行語義特徵編碼,並結合資料庫,來實現基於語義樹的全文索引和搜尋服務。
α文搜尋主要是構建語義樹,通過語義樹的構建提供一種快速匹配語義的方法,根據語義和文檔的關係,查找到相關的文檔信息。
語義樹的基本存儲單元包括:最小語義單元,該單元的特徵編碼,前置單元的特徵編碼。
α文搜尋提供windows和linux下的64位版本,系統c++編制,前端結合jquery、d3.js實現web頁面。
基本介紹
- 軟體名稱:α文搜尋
- 軟體平台:windows linux
- 軟體語言:C++
- 開發商:上海泥娃通信科技有限公司
- 軟體大小:21M
概念介紹,主要技術,系統特色,套用價值,典型套用,文字檢索,聯想語義,語義樹套用,
概念介紹
α文搜尋是一款基於語句的全文檢索服務系統,不再基於關鍵字,也不依賴分詞服務,對語言的支持採用統一的標準,支持語言僅僅需要以下特點的:有最小的文字單元,語句可以切分。
對文字的搜尋提供一種獨有的方式,按系統的算法對文字進行特定的編碼,組建索引時存到關係表word中,為語句位的提供語句標識;存儲語句和文檔的關係到docseg表中;文檔存儲到text表中。
主要技術
特徵編碼:採用遞增編碼的方式進行,文字一的特徵編碼加上文字二進行特徵編碼,以此類推。
語義樹:通過特徵編碼,文字,前特徵編碼構建語義樹。
語句的最大匹配:查找的語句先進行特徵編碼,按最大化查找的方式進行,找不到遞減查找,找到最大匹配後,順著語義樹再查找語句標識,找到則進行文檔查找即可。
文檔的查找;
給定文字的後續聯想查找。提供查找文字的後續文字連結,方便進行新的查找。
基於web的方式提供服務,提供管理界面,編輯界面,可以編輯檢索的內容。
語義樹的建立。通過特定的編碼方式,結合資料庫的存儲形成語義樹,實現快速查找最大匹配的語句。
不需要分詞。Utf8編碼的方式切分字元,通過編碼的方式存儲文字在語句中的位置,關聯上文,結合資料庫實現文字的上下文查找。
適合大部分的語言文字。為設定的語言建立語義樹,不設定的情況下為所有的語言建立語義樹,適合的語言必須具備的條件,文字的分割和句子的分割。
數據存儲。數據存儲包括:語義樹的存儲,語句和文檔關係存儲,文檔存儲。
支持語言的混合查找,支持程式語言和科學公式的查找。
支持聯想記憶查找。給定查找文字的後續文字,提供進一步的查找。
系統特色
1、自然語句搜尋,搜尋的內容按自然語句的形式進行最大化匹配後展示搜尋的結果;
2、支持多語句的查找,語句之間的關係為“和”;
3、可以繪製語義樹,提供基於語義樹的查詢方式;
4、支持聯想記憶的查找,查找後悔給出該查找內容的後續文字記錄,方便進一步的查找;
5、支持所有的文字,對於文字的處理僅僅需要分句和分字,即有劃分語句的規則和區分文字單元的規則即可;
6、獨有的語義特徵編碼技術,實現語句或者語句片段的快速查找;
7、適合進行語義理解的搜尋,方便進行語義理解;
8、支持多核設定和分開存儲;
9、支持mongodb資料庫和mysql資料庫;
10、支持分散式的部署和負載均衡。
套用價值
α文搜尋可以建立統一的語義樹,為人工智慧、提供技術支持;方便的為文字建立索引;對所有的語言提供統一的索引方案。
為語義理解提供語義樹的支持,提供快速匹配語句,結合語義理解給出該句的語義解析。
不再需要分詞,不再需要分開進行不同的處理,對於多語種結合的文字可以採用統一的來進行全文索引和檢索。
服務於網際網路,服務於不同的語種人群。
語義樹的建立為人工智慧提供來語義分析的平台。
語義樹可以形象的展示搜尋語句或者關鍵字的後續信息,適合進行分析。
α文搜尋提供了統一的搜尋方法,統一的標準,基於語句存儲文檔關係表,在存儲和檢索方面具有性能上的優勢,減少伺服器和設備的開銷。
典型套用
α文搜尋除了用於全文檢索,還提供聯想語義查詢和語義樹的查詢功能。
文字檢索
作為獨立的全文搜尋引擎使用,滿足文字信息的索引和檢索工作。網際網路的信息搜尋,企業級的全文檢索服務。
適合不同的文字的全文檢索,可以作為特定語言的網頁信息檢索的工具。
聯想語義
提供語義的上下文關聯檢索,甚至於提供語句的上下文檢索。
語義樹套用
基於語義樹的信息分析和展示,基於語義樹的搜尋結果的存儲和交流。可以直觀的呈現搜尋的結果和之間的關係,可以提供基於語義樹的信息分享。搜尋的結果通過搜尋的語義樹進行分享。
通過語義樹的比較分析關注點,例如不同地區的不同事物,或者不同語言的同樣意思的語句,生成語義樹的比較。
搜尋“武漢小吃”和“重慶小吃”給出的語義樹如下:
搜尋“上海東方明珠”的語義樹: