您现在的位置是：首页 > 硬件

当前栏目

机器学习——英文特征提取，中文特征提取

机器中文学习英文特征提取

2023-09-11 14:16:58 时间

环境：ubuntu20.10,python3.8

代码如下：

#coding:utf-8
from sklearn.feature_extraction import DictVectorizer, stop_words
from sklearn.feature_extraction.text import CountVectorizer
import jieba

def dict_demo():
    #""""
    #字典特征提取
    #:return:
    #""""
    data = [{"city":"北京","temperature":100},
            {"city":"上海","temperature":60},
            {"city":"深圳","temperature":30}]
    # 字典特征提取
    # 1、实例化
    #transfer = DictVectorizer()
    transfer = DictVectorizer(sparse=False)

    # 2、调用fit_transform
    trans_data = transfer.fit_transform(data)

    print("特征名字是：\n",transfer.get_feature_names())
    print(trans_data)

def english_count_text_demo():
    #""""
    #文本特征提取－－英文
    #:return:
    #""""
    data = ["life is short,i like python",
            "life is too long,i dislike python"]
    # 文本特征提取－－英文
    # 1、实例化
    #transfer = CountVectorizer(sparse=False) #注意，没有sparse
    transfer = CountVectorizer(stop_words=["dislike"])

    # 2、调用fit_transform
    trans_data = transfer.fit_transform(data)

    print("特征名字是：\n",transfer.get_feature_names())
    print(trans_data.toarray())

def chinese_count_text_demo():
    #""""
    #文本特征提取－－中文
    #:return:
    #""""
    data = ["人生苦短,我喜欢 python",
            "生活太长久，我不喜欢 python"]
    # 文本特征提取－－中文
    # 1、实例化
    transfer = CountVectorizer()

    # 2、调用fit_transform
    trans_data = transfer.fit_transform(data)

    print("特征名字是：\n",transfer.get_feature_names())
    print(trans_data.toarray())

def cut_word(sen):
    #""""
    #中文分词
    #:return:sen
    #""""
    return " ".join(list(jieba.cut(sen)))

def chinese_count_text_demo2():
    #""""
    #文本特征提取－－中文
    #:return:
    #""""
    data = ["主持人：任鲁豫、尼格买提、李思思、张韬、龙洋、王俊凯、柳岩、李梓萌",
"开头短片《春晚四十年》，开场灯光秀，大型舞蹈组合《盛世中华》(舞组合）",
"情景表演《暴风雨中的河南》，讲述人：张国立、康辉、张泽群、黄轩，表演：刘亚津、温玉娟、贾乃亮、范雷、尚大庆、何泓姗、秦岚、林家川、周也、陈哲远、柴碧云、杜江等"]

    list = []
    for temp in data:
        list.append(cut_word(temp))
    print(list)

    # 特征提取
    # 1、实例化
    transfer = CountVectorizer(stop_words=["康辉"])

    # 2、调用fit_transform
    trans_data = transfer.fit_transform(data)

    print("特征名字是：\n",transfer.get_feature_names())
    print(trans_data.toarray())

#dict_demo()
#english_count_text_demo()
#chinese_count_text_demo()
chinese_count_text_demo2()

猜你喜欢

Vue2.x - 组件化编程
3 jmeter的分布式部署
@Scope注解设置创建bean的方式和生命周期
传输层 TCP首部数据偏移字段/标记位
K8S集群的搭建：环境准备及相关命令
当心那些视觉上不易分辨的操作符发生书写错误
Andrew Ng-ML-第十七章-推荐系统
fastadmin 单独设置导入权限【转载】
第1章 1.11计算机网络概述--计算机网络性能指标1
通过JMX监控Spring Boot应用
一文读懂：有关ChatGPT的十个问题
LightningChart .NET 10.3.2.2 -Crack-2022-08-09
android 驱动 ptrace追踪打印
成功解决‘pip‘ 不是内部或外部命令，也不是可运行的程序或批处理文件或者‘conda‘ 不是内部或外部命令，也不是可运行的程序或批处理文件
水平交错效果显示图像
一文讲尽Thread类的源码精髓

相关主题

机器学习概述
机器学习实践
机器学习——Adaboost
[机器学习] 集成学习
机器学习之线性回归
机器学习和统计学习
什么是机器学习
机器学习 | 交叉验证
机器学习之深度学习
李宏毅机器学习
机器学习-归一化
机器学习与R语言
机器学习-视频
机器算法
机器学习总结

zl程序教程

当前栏目

机器学习——英文特征提取，中文特征提取

相关文章