【说站】Python中Tf-idf文本特征的提取
Python 文本 提取 特征 TF idf
2023-06-13 09:13:26 时间
Python中Tf-idf文本特征的提取
说明
1、TF-IDF是如果词或词组出现在文章中的概率较高,而在其他文章中很少出现,那么它就被认为具有很好的类别区分能力,适合进行分类。
2、提取文本特征,用来评估字词对文件集或某个语料库中文件的重要性。
实例
def tfidf_demo():
"""
用tfidf的方法进行文本特征提取
:return:
"""
# 1.将中文文本进行分词
data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
"我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
"如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
data_new = []
for sent in data:
data_new.append(cut_word(sent))
# print(data_new)
# 2.实例化一个转换器类
transfer = TfidfVectorizer(stop_words=["一种", '因为'])
# 3.调用fit_transform
data_final = transfer.fit_transform(data_new)
print("data_new:\n", data_final.toarray())
print("特征名字:\n", transfer.get_feature_names())
return None
以上就是Python中Tf-idf文本特征的提取,希望对大家有所帮助。
相关文章
- pycharm导入Python_python简单项目
- python详细安装教程环境配置_Python配置环境
- [Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解
- python判断linux中文件是否存在_Python判断文件是否存在的三种方法
- 0基础小白想学Python不知道怎么入门从何学起?十分钟带你快速入门 Python(初学者必看,收藏必备!!!)
- pythondecode函数的用法_如何使用python中的decode函数?[通俗易懂]
- Python PyPDF2、pdfplumber 提取 PDF 文本、图片内容
- Python里divmod_python yield函数
- Python 技巧篇-pip卸载python库实例演示,查看pip命令大全方法[通俗易懂]
- 【说站】python中getopt模块是什么
- 简述Python特点_python优缺点
- Python的特点是什么_python具有的特点
- sed提取两个关键字之间的内容_python提取文本指定内容
- Python 生成随机数_python建立随机数列表
- 1行Python代码,把PPT转成图片,python-office功能更新~
- Python酒店评论文本数据分析:tf-idf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近算法KNN、随机森林、LDA主题模型
- Python之ruamel.yaml模块详解(一)
- Python面向对象编程-三大特性-继承-多重继承
- python-Python与MongoDB数据库-处理MongoDB查询结果
- python-Python与PostgreSQL数据库-使用Python执行PostgreSQL查询(一)
- Python字符转换