jcseg

功能特色

1。mmseg四種過濾算法，分詞準確率達到了98.41%。

2。支持自定義詞庫。在jcseg源碼中的lexicon資料夾下，可以隨便添加/刪除/更改詞庫和詞庫內容，並且對詞庫進行了分類。

3。同義詞匹配+分詞拼音追加．詞庫整合了《現代漢語詞典》和cc-cedict辭典中的詞條，並且依據cc-cedict詞典為詞條標上了拼音，依據《中華同義詞詞典》為詞條標上了同義詞(尚未完成)。更改jcseg.properties配置文檔可以在分詞的時候加入拼音和同義詞到分詞結果中。

4。中文數字和中文分數識別，例如："一百五十個人都來了，四十分之一的人。"中的"一百五十"和"四十分之一"。並且jcseg會自動將其轉換為阿拉伯數字加入到分詞結果中。如：150， 1/40。

5。支持中英混合詞和英中混合詞的識別。例如：B超, x射線, 卡拉ok, 奇都ktv。

6。更好的英文支持，電子郵件，網址，小數，分數，百分數，字母和標點組合詞（例如C++, c#）的識別。

7。支持阿拉伯/中文數字基本單字單位的識別，例如2012年，五折，並且jcseg會將其轉換為“5折”加入分詞結果中。

8。自動圓角/半角，大小寫轉換。

9。特殊字母識別：例如：Ⅰ，Ⅱ

10。特殊數字識別：例如：①，⑩

11。配對標點內容提取：例如：最好的Java書《java編程思想》，‘暢想杯黑客技術大賽’，被,‘,“,『標點標記的內容。

12。智慧型中文人名識別。中文人名識別正確率達94%以上。（可以維護lex-lname.lex，lex-dname-1.lex，lex-dname-2.lex來提高準確率）。

13。自動中英文停止詞過濾功能（需要在jcseg.properties中開啟該選項，lex-stopwords.lex為停止詞詞庫）。

14。詞庫更新自動載入功能, 開啟一個守護執行緒隨時檢測詞庫的更新並且載入.

測試環境：2.8GHZ/2G/Ubuntu

Simple 模式： 1366058字/秒 3774.5KB/秒

Complex 模式： 479338字/秒 1324.4KB/秒

運行如下命令來測試jcseg分詞：

java -jar jcseg-core-{version}.jar即可( {version改為對應的版本號})。

jcseg lucene分詞：

//導入jcseg-core-{version}.jar

//import com.webssky.jcseg.core.Config類