Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略
2023-09-14 09:04:49 时间
Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略
目录
SnowNLP的简介
snowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的。
snownlp主要可以进行中文分词(算法是Character-Based Generative Model)、词性标注、情感分析、文本分类(原理是朴素贝叶斯)、转换拼音、繁体转简体、提取文本关键词(原理TextRank)、提取摘要(原理TextRank)、分割句子、文本相似(原理BM25)。官网还有更多关于该库的介绍。
- 中文分词(Character-Based Generative Model)
- 词性标注(TnT 3-gram 隐马)
- 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
- 文本分类(Naive Bayes)
- 转换成拼音(Trie树实现的最大匹配)
- 繁体转简体(Trie树实现的最大匹配)
- 提取文本关键词(TextRank算法)
- 提取文本摘要(TextRank算法)
- tf,idf
- Tokenization(分割成句子)
- 文本相似(BM25)
- 支持python3(感谢erning)
github:SnowNLP: Simplified Chinese Text Processing
snownlp pypi
SnowNLP的安装
pip install snownlp
SnowNLP的使用方法
文章推荐
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→情感分析→测试)
关于训练
现在提供训练的包括分词,词性标注,情感分析,而且都提供了我用来训练的原始文件 以分词为例 分词在snownlp/seg
目录下
from snownlp import seg
seg.train('data.txt')
seg.save('seg.marshal')
# from snownlp import tag
# tag.train('199801.txt')
# tag.save('tag.marshal')
# from snownlp import sentiment
# sentiment.train('neg.txt', 'pos.txt')
# sentiment.save('sentiment.marshal')
相关文章
- Ubuntu下安装KDE及安装中文环境
- Kali Linux安装及中文指南
- 记一个 中文乱码问题
- 解决Ubuntu 18.04中文输入法的问题,安装搜狗拼音
- eclipse安装中文补丁包
- java 中文乱码的解决方法
- javascrpt插入html中中文字符乱码问题记录
- 【转】wsl2-kali基础配置(换源、切换中文、安装完整版、包含无法打开Windows商店的情况下安装wsl等)
- 【secureCRT】中文乱码问题
- [Linux] Ubuntu下安装Sublime-text 且 支持中文输入
- Linux 中文乱码问题
- python matplotlib.plot画图显示中文乱码的问题
- Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战
- solr - 安装ik中文分词 和初始化富文本检索
- 更改vs code的界面颜色 vscode修改界面颜色及风格(中文英文界面都有) 手动设置vs code的界面背景颜色
- Linux安装中文man手冊
- 逆向——字符与字符串,中文字符GB2312编码由来
- linux环境下安装sphinx中文支持分词搜索(coreseek+mmseg)
- 论文投稿指南——中文核心期刊推荐(音乐)
- 【Deepin20系统】Linux系统中永久解决matplotlib画图中文乱码问题和使用seaborn中文乱码问题
- VSCode 插件安装:中文(简体)语言包(附带:不生效解决方案)
- SpringToolSuite4 中文语言包安装手册
- python提取字符串中的 中文 日文 韩文