Atitit snownlp nlp 常见功能 目录 1.1. 主要功能: 1 1.2. 官网信息: 2 1.3. # 自动摘要 vs 关键词提取 2 1.4. Tf idf算法 2 1.5. p
Atitit snownlp nlp 常见功能
目录
- 中文分词(Character-Based Generative Model)
- 词性标注(TnT 3-gram 隐马)
- 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
- 文本分类(Naive Bayes)
- 转换成拼音(Trie树实现的最大匹配)
- 繁体转简体(Trie树实现的最大匹配)
- 提取文本关键词(TextRank算法)
- 提取文本摘要(TextRank算法)
- tf,idf
- Tokenization(分割成句子)
- 文本相似(BM25)
- 支持python3(感谢erning)
text = '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。'
s = SnowNLP(text)
print(s.keywords(10))
print(s.summary(3))
## SnowNLP.summary
s = SnowNLP([[u'这篇', u'文章'],
[u'那篇', u'论文'],
[u'这个']])print(s.tf) #TF意思是词频(Term Frequency)print(s.idf) #IDF意思是逆文本频率指数(Inverse Document Frequency)
print(s.sim(['文章']))# [0.3756070762985226, 0, 0]
print(s.sim(['文章','真']))# [0.7731414846187967, 0, 0
- 词频:
- [{'这篇': 1, '文章': 1, '真': 1, '不错': 1}, {'那篇': 1, '论文': 1}, {'这个': 1}]
- 逆向文件频率:
- {'这篇': 0.5108256237659907, '文章': 0.5108256237659907, '真': 0.5108256237659907, '不错': 0.5108256237659907, '那篇': 0.5108256237659907, '论文': 0.5108256237659907, '这个': 0.5108256237659907}
- 文本相似:
- [0.38657074230939836, 0, 0]
- ---------------------
['这个', '东西', '真心', '很', '赞']
<zip object at 0x12638b388>
0.9769551298267365
['zhe', 'ge', 'dong', 'xi', 'zhen', 'xin', 'hen', 'zan']
「繁体字」「繁体中文」的叫法在台湾亦很常见。
提取文本关键词:
---------------------
from snownlp import seg
seg.train('data.txt')
seg.save('seg.marshal')
# from snownlp import tag
# tag.train('199801.txt')
# tag.save('tag.marshal')
# from snownlp import sentiment
# sentiment.train('neg.txt', 'pos.txt')
---------------------
(9+条消息)NLP snownlp 实际用例 - _yuki_ - CSDN博客.html
相关文章
- Categories VS Extensions (分类 vs 扩展)
- vs 默认的INC和LIB
- [RxJS] exhaustMap vs switchMap vs concatMap
- 盈利模式!商业保理 VS银行保理
- Qt系列文章004-Qt+VS开发环境搭建
- 《安富莱嵌入式周报》第291期:分分钟设计数字芯片,单片机版JS,神经网络DSP,microPLC,FatFS升级至V0.15,微软Arm64 VS正式版发布
- Atitit 常见聚合运算与算法 目录 1.1. 单行函数,vs 那就是聚合函数1 1.2. 聚合分类 哈希聚合 标量聚合 流聚合1 1.3. 常见聚合函数 mysql oracle等1 r
- Atitit 机器学习算法分类 目录 1. 传统的机器学习算法 vs 深度学习1 1.1. 传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。2 2. 监
- Atitit php vs node.js attilax总结
- SAP Cloud for Customer的公有云和私有云部署方式 - Public Cloud vs Private Cloud
- ML之回归预测:利用十(xgboost,10-1)种机器学习算法对无人驾驶汽车系统参数(2017年的data,18+2)进行回归预测值VS真实值——bug调试记录
- ML之回归预测:利用两种机器学习算法(LiR,XGBoost(调优+重要性可视化+特征选择模型))对无人驾驶汽车系统参数(2017年的data,18+2)进行回归预测值VS真实值
- ML之回归预测:利用八(9-1)种机器学习算法对无人驾驶汽车参数(2017年的data,18+2)进行回归预测值VS真实值
- visual studio(VS)工程重命名
- ChatGLM vs ChatGPT : 关于人工智能发展简史
- vs 行数