基本介紹
- 中文名:IKAnalyzer
- 性質:中文分詞工具包
- 語言:java語言
- 推出時間:2006年12月
相關簡介,相關特性,運行環境,最新版本,
相關簡介
從2006年12月推出1.0版開始,IKAnalyzer已經推出 了3個大版本。最初,它是以開源項目Lucene為套用主體的,結合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAnalyzer3.0則發展為 面向Java的公用分詞組件,獨立於Lucene項目,同時提供了對Lucene的默認最佳化實現。
相關特性
對中英聯合支持不是很好,在這方面的處理比較麻煩.需再做一次查詢,同時是支持個人詞條的最佳化的詞典存儲,更小的記憶體占用。
支持用戶詞典擴展定義。
運行環境
授權協定: LGPL
開發語言: Java
作業系統: 跨平台
最新版本
當前最新版本為IKAnalyzer2012
IK Analyzer 2012特性:
1.採用了特有的“正向疊代最細粒度切分算法“,支持細粒度和智慧型分詞兩種切分模式;
2.在系統環境:Core2 i7 3.4G雙核,4G記憶體,window 7 64位, Sun JDK 1.6_29 64位 普通pc環境測試,IK2012具有160萬字/秒(3000KB/S)的高速處理能力。
4.採用了多子處理器分析模式,支持:英文字母、數字、中文辭彙等分詞處理,兼容韓文、日文字元
5.最佳化的詞典存儲,更小的記憶體占用。支持用戶詞典擴展定義。特別的,在2012版本,詞典支持中文,英文,數字混合詞語。