paip.中文 分词 ---paoding 3.1 的使用
paip.中文 分词 ---paoding 3.1 的使用
作者Attilax 艾龙, EMAIL:1466519819@qq.com
来源:attilax的专栏
地址:http://blog.csdn.net/attilax
paoding 3.1 下载:
http://git.oschina.net/zhzhenqin/paoding-analysis.git
原项目见 https://code.google.com/p/paoding/
设置字典路径
/paodinProj/src/paoding-dic-home.properties 默认不用更改..
/paodinProj/dic
测试代码
*/
public static void main(String[] args) throws IOException {
String text = "我的QQ号码是1466519819";
text="一生当中,真正的朋友只有那么一两个!可以为自己的友情做个加减法!";
Analyzer analyzer = new PaodingAnalyzer();
TokenStream ts = analyzer.tokenStream("text", new StringReader(text));
//添加工具类 注意:以下这些与之前lucene2.x版本不同的地方
CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);
// 循环打印出分词的结果,及分词出现的位置
while (ts.incrementToken()) {
System.out.print(offAtt.toString() + "\t");
结论:
实现类: PaodingAnalyzer
使用方法: 主要通过lucene的接口实现, Analyser#tokenStream方法
切词效果: 传统/意义/意义上/上的/几何/几何学/研究/图形/形的/形状/大/大小/等/性质
备注: paoding的切词会漏字(食字),上面的结果就食了 ‘在’ 字;
总会进行最小粒度切分,只要在词库里有的词组,都会出现。如:之前-->前/之前
效果不如ik,Ictclas4j
}
}
相关文章
- iOS开发之网络编程--中文转码
- Nodejs Express 4.X 中文API 4--- Router篇
- Nodejs Express 4.X 中文API 3--- Response篇
- java struts2入门学习---中文验证、对错误消息的分离、结果(result)类型细节配置
- android 中文 api (71) —— BluetoothServerSocket[蓝牙]
- Linux服务器评测脚本 中文IO脚本简单易懂
- Python爬虫开发:url中文字符编码的两种解决方式
- paip.提升中文分词准确度---新词识别
- 1007 素数对猜想 (20 分)—PAT (Basic Level) Practice (中文)
- NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
- python matplotlib.plot画图显示中文乱码的问题
- OPENCV API 中文手册
- Python编程:解决matplotlib绘图中文乱码问题
- Java-SpringMvc-@ResponseBody返回中文字符串乱码
- (十)unity4.6学习Ugui中文文档-------參考-UGUI Canvas Components
- Windows Mobile 6.0 SDK和中文模拟器下载