zl程序教程

您现在的位置是:首页 >  其他

当前栏目

当下流行的中文分词模块jieba

中文模块 流行 分词 jieba 当下
2023-09-11 14:18:26 时间

当前流行的中文分词模块包括

  1. Jieba 分词:Jieba 是用 Python 实现的开源中文分词库,支持三种分词模式:精确模式、全模式和搜索引擎模式,并且支持自定义词典。
  2. THULAC 分词:THULAC 是由清华大学自然语言处理实验室开发的开源中文分词工具,可以对中文进行分词、词性标注和命名实体识别。
  3. LTP 分词:LTP (Language Technology Platform) 是由中科院自然语言处理研究所开发的开源自然语言处理工具包,包含中文分词、词性标注、句法分析、命名实体识别等功能。
  4. SnowNLP 分词:SnowNLP 是一个基于 Python 的轻量级中文自然语言处理工具包,提供了中文分词、情感分析、文本摘要等功能。
  5. PyHanLP 分词:PyHanLP 是用 Python 实现的开源中文自然语言处理工具包,支持中文分词、词性标注、命名实体识别、情感分析、文本聚类、文本分类、文本摘要等功能。

这些中文分词模块都有自己的特点和优劣,你可以根据自己的需求来选择适合的工具。

这里对于中文语料来说应用最广的就是 jiba 分词了。
在这里插入图片描述