庖丁解牛分詞器是基於lucene的中文分詞系統的軟體。
基本介紹
- 中文名:庖丁解牛分詞器
- 基於:lucene的中文分詞系統
- 建了:一個analyzer
- 切割抽象:analysis.knife
庖丁系統介紹,庖丁詳解,版本支持,
庖丁系統介紹
庖丁系統是個完全,它就是重新,叫做PaodingAnalyzer,這個analyer的核心任務就是生成一個可以切詞TokenStream。
庖丁詳解
庖丁系統的核心內容
net.paoding.analysis.dictionary 字典抽象—提供查詢字典
net.paoding. —分詞算法
net.paoding.analysis.analyzer 封裝適配器到lucene接口
庖丁分詞系統的缺點
這種切分還是有很明顯的缺點.例如下面一段文字:
“發展社區老年活動場所和服務設施”
如果想搜尋日本的和服相關資料,輸入關鍵字“和服”的時候,上面的資料也會被搜尋出來
搜尋引擎是第一步搜尋:
在浩瀚的信息中,快速集結最後可能是所想要的結果, 按照可能是最好的順序展現出來。
人的眼睛是第二步搜尋:
找尋最符合要求的結果,同時將機器無法輕易識別的少數“無效”結果過濾
“和服”問題,涉及了漢語語義的問題,幾乎不可完全解決(可作為“特例”解決,或通過排序方法,將他排到相對靠後等價解決)。
庖丁與IK性能比較
所用版本:
IKAnalyzer2.0.2 & paoding_analysis2.0.4alpha
測試環境:
InterCore 1.8雙核,1G記憶體,XP,Java1.6Se
結果:
對長度為96256中文分詞:
IK-Analyzer:203ms 55296 單詞 272394詞/秒
paoding:94ms 47104單詞 501106詞/秒
對長度為3008中文分詞:
IK-Analyzer:31ms 1728單詞 55741詞/秒
paoding:15ms 1472單詞 98133詞/秒
版本支持
現在已經支持lucene3.0以上的版本了,在lucene官網的trunk目錄下。