IK Analyzer 2012发布 中文分词库
2023-03-14 22:49:25 时间
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
IK Analyzer 2012特性:
- 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;
- 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。
- 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
- 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符。
- 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。
下载地址:http://code.google.com/p/ik-analyzer/downloads/list
原文链接:http://www.oschina.net/news/26788/ikanalyzer-2012
【编辑推荐】
相关文章
- Java 多线程之间如何通知通信
- 使用Gradle构建Java项目
- IDEA导入Maven模块未识别,包颜色不对(包显示灰色)
- Maven简介和安装(配置中央仓库和本地仓库,IDEA配置Maven)
- Maven中的依赖管理
- Maven的生命周期与插件
- Maven的聚合 继承 属性 版本管理 多环境资源配置 跳过测试
- Arthas(Java 应用诊断利器)
- Java用户线程和守护线程,线程默认Daemon值是false吗?
- Java 并发编程之Semaphore详解
- JUC 常用 4 大并发工具类 CountDownLatch、CyclicBarrier、Semaphore、ExChanger
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-436 算法训练 正六边形
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-439 算法训练 简单字符变换
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-443 输出数字除本身的所有因子和
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-444 算法训练 求和问题
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-446 递归输出数字
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-448 口音
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-449 递归输出数字三角形
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-451 铺地板
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-456 求链表各节点的平均值(C++解法)