当下流行的中文分词模块jieba
2023-09-11 14:18:26 时间
当前流行的中文分词模块包括
- Jieba 分词:Jieba 是用 Python 实现的开源中文分词库,支持三种分词模式:精确模式、全模式和搜索引擎模式,并且支持自定义词典。
- THULAC 分词:THULAC 是由清华大学自然语言处理实验室开发的开源中文分词工具,可以对中文进行分词、词性标注和命名实体识别。
- LTP 分词:LTP (Language Technology Platform) 是由中科院自然语言处理研究所开发的开源自然语言处理工具包,包含中文分词、词性标注、句法分析、命名实体识别等功能。
- SnowNLP 分词:SnowNLP 是一个基于 Python 的轻量级中文自然语言处理工具包,提供了中文分词、情感分析、文本摘要等功能。
- PyHanLP 分词:PyHanLP 是用 Python 实现的开源中文自然语言处理工具包,支持中文分词、词性标注、命名实体识别、情感分析、文本聚类、文本分类、文本摘要等功能。
这些中文分词模块都有自己的特点和优劣,你可以根据自己的需求来选择适合的工具。
这里对于中文语料来说应用最广的就是 jiba 分词了。
相关文章
- 安卓手机便签如何把中文内容翻译成英文?
- 问题-Fastreport4 Memo打印时中文显示不全
- 史上规模最大的中文知识图谱以及估值两个亿的 AI 核心代码
- .net core读取appsettings.config中文乱码问题
- Nginx、PCRE和中文URL(UTF8编码)rewrite路径重写匹配问题
- Android 中文API (69) —— BluetoothAdapter[蓝牙]
- Android中文API(114)——TabWidget
- oracle安装数据库中文乱码解决办法
- nginx ngx_http_core_module 模块中文文档
- Jerry自己写的ABAP处理中文字符的工具类
- 1002 写出这个数 (20 分)—PAT (Basic Level) Practice (中文)
- qt 中文乱码 处理QByteArray类型里含中文的数据
- 雷人的一幕:国外的codeproject论坛竟有人发“中文贴”.....
- cocos2dx c++ 在mac下写的中文凝视,在win32下编译时不通过
- python基础===jieba模块,Python 中文分词组件
- 论文投稿指南——中文核心期刊推荐(社会学)
- 对Python中文分词模块结巴分词算法过程的理解和分析
- Python解决爬虫中文返回乱码问题