机器学习——英文特征提取,中文特征提取
环境:ubuntu20.10,python3.8
代码如下:
#coding:utf-8
from sklearn.feature_extraction import DictVectorizer, stop_words
from sklearn.feature_extraction.text import CountVectorizer
import jieba
def dict_demo():
#""""
#字典特征提取
#:return:
#""""
data = [{"city":"北京","temperature":100},
{"city":"上海","temperature":60},
{"city":"深圳","temperature":30}]
# 字典特征提取
# 1、实例化
#transfer = DictVectorizer()
transfer = DictVectorizer(sparse=False)
# 2、调用fit_transform
trans_data = transfer.fit_transform(data)
print("特征名字是:\n",transfer.get_feature_names())
print(trans_data)
def english_count_text_demo():
#""""
#文本特征提取 -- 英文
#:return:
#""""
data = ["life is short,i like python",
"life is too long,i dislike python"]
# 文本特征提取 -- 英文
# 1、实例化
#transfer = CountVectorizer(sparse=False) #注意,没有sparse
transfer = CountVectorizer(stop_words=["dislike"])
# 2、调用fit_transform
trans_data = transfer.fit_transform(data)
print("特征名字是:\n",transfer.get_feature_names())
print(trans_data.toarray())
def chinese_count_text_demo():
#""""
#文本特征提取 -- 中文
#:return:
#""""
data = ["人生 苦短,我 喜欢 python",
"生活 太长久,我 不 喜欢 python"]
# 文本特征提取 -- 中文
# 1、实例化
transfer = CountVectorizer()
# 2、调用fit_transform
trans_data = transfer.fit_transform(data)
print("特征名字是:\n",transfer.get_feature_names())
print(trans_data.toarray())
def cut_word(sen):
#""""
#中文分词
#:return:sen
#""""
return " ".join(list(jieba.cut(sen)))
def chinese_count_text_demo2():
#""""
#文本特征提取 -- 中文
#:return:
#""""
data = ["主持人:任鲁豫、尼格买提、李思思、张韬、龙洋、王俊凯、柳岩、李梓萌",
"开头短片《春晚四十年》, 开场灯光秀, 大型舞蹈组合《盛世中华》(舞组合)",
"情景表演《暴风雨中的河南》,讲述人:张国立、康辉、张泽群、黄轩 ,表演:刘亚津、温玉娟、贾乃亮、范雷、尚大庆、何泓姗、秦岚、林家川、周也、陈哲远、柴碧云、杜江等"]
list = []
for temp in data:
list.append(cut_word(temp))
print(list)
# 特征提取
# 1、实例化
transfer = CountVectorizer(stop_words=["康辉"])
# 2、调用fit_transform
trans_data = transfer.fit_transform(data)
print("特征名字是:\n",transfer.get_feature_names())
print(trans_data.toarray())
#dict_demo()
#english_count_text_demo()
#chinese_count_text_demo()
chinese_count_text_demo2()
相关文章
- [吴恩达机器学习笔记]11机器学习系统设计5数据量对机器学习的影响
- 机器学习笔记之谱聚类(一)k-Means聚类算法介绍
- 机器学习笔记之变分推断(五)重参数化技巧
- 搜狗首席科学家柳超博士谈“字根嵌入”让机器更懂中文
- 《机器学习与R语言(原书第2版)》一1.5 使用R进行机器学习
- 《机器学习与R语言(原书第2版)》一导读
- 《面向机器智能的TensorFlow实践》一3.3 通过名称作用域组织数据流图
- 在opencv3中实现机器学习之:利用svm(支持向量机)分类
- 《数字图像处理与机器视觉——Visual C++与Matlab实现(第2版)》——2.1.4 读取和写入图像文件
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——第1章 自然语言处理简介
- 《机器学习与数据科学(基于R的统计学习方法)》——2.1 管理你的工作目录
- 台湾大学 机器学习基石 扩展阅读资料
- 机器学习入门路线
- 使用自动获取IP地址后,无法访问局域网中以机器名开头的文件共享