您现在的位置是：首页 > 硬件

当前栏目

传智播客机器学习之数据降维学习笔记

机器笔记学习数据降维传智播

2023-09-27 14:25:49 时间

特征选择原因

• 冗余：部分特征的相关度高，容易消耗计算性能

• 噪声：部分特征对预测结果有负影响

特征选择是什么

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，

特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯

定比选择前小，毕竟我们只选择了其中的一部分特征。

主要方法（三大武器）：Filter(过滤式):VarianceThreshold

Embedded(嵌入式)：正则化、决策树

Wrapper(包裹式)

sklearn特征选择API

sklearn.feature_selection.VarianceThreshold

VarianceThreshold语法

• VarianceThreshold (threshold = 0.0 )

• 删除所有低方差特征

• Variance . fit_transform ( X,y )

• X:numpy array 格式的数据 [ n_samples,n_features ]

• 返回值：训练集差异低于 threshold 的特征将被删除。

• 默认值是保留所有非零方差特征，即删除所有样本

• 中具有相同值的特征。

VarianceThreshold流程(代码演示)

sklearn降维API

•sklearn. decomposition

PCA(主成分分析)

PCA是什么

本质：PCA是一种分析、简化数据集的技术

目的：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。

作用：可以削减回归分析或者聚类分析中特征的数量

高维度数据容易出现的问题：•特征之间通常是线性相关的

PCA语法

• PCA( n_components =None )

• 将数据分解为较低维数空间

• PCA . fit_transform (X)

• X:numpy array 格式的数据 [ n_samples,n_features ]

• 返回值：转换后指定维度的 array

PCA流程(代码演示)

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Imputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np

# 特征抽取
#
# 导入包
# from sklearn.feature_extraction.text import CountVectorizer
#
# # 实例化CountVectorizer
#
# vector = CountVectorizer()
#
# # 调用fit_transform输入并转换数据
#
# res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
#
# # 打印结果
# print(vector.get_feature_names())
#
# print(res.toarray())


def dictvec():
    """
    字典数据抽取
    :return: None
    """
    # 实例化
    dict = DictVectorizer(sparse=False)

    # 调用fit_transform
    data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])

    print(dict.get_feature_names())

    print(dict.inverse_transform(data))

    print(data)

    return None


def countvec():
    """
    对文本进行特征值化
    :return: None
    """
    cv = CountVectorizer()

    data = cv.fit_transform(["人生 苦短，我 喜欢 python", "人生漫长，不用 python"])

    print(cv.get_feature_names())

    print(data.toarray())

    return None





def cutword():

    con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")

    con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")

    con3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")

    # 转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    # 吧列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)

    return c1, c2, c3



def hanzivec():
    """
    中文特征值化
    :return: None
    """
    c1, c2, c3 = cutword()

    print(c1, c2, c3)

    cv = CountVectorizer()

    data = cv.fit_transform([c1, c2, c3])

    print(cv.get_feature_names())

    print(data.toarray())

    return None



def tfidfvec():
    """
    中文特征值化
    :return: None
    """
    c1, c2, c3 = cutword()

    print(c1, c2, c3)

    tf = TfidfVectorizer()

    data = tf.fit_transform([c1, c2, c3])

    print(tf.get_feature_names())

    print(data.toarray())

    return None


def mm():
    """
    归一化处理
    :return: NOne
    """
    mm = MinMaxScaler(feature_range=(2, 3))

    data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])

    print(data)

    return None


def stand():
    """
    标准化缩放
    :return:
    """
    std = StandardScaler()

    data = std.fit_transform([[ 1., -1., 3.],[ 2., 4., 2.],[ 4., 6., -1.]])

    print(data)

    return None


def im():
    """
    缺失值处理
    :return:NOne
    """
    # NaN, nan
    im = Imputer(missing_values='NaN', strategy='mean', axis=0)

    data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])

    print(data)

    return None


def var():
    """
    特征选择-删除低方差的特征
    :return: None
    """
    var = VarianceThreshold(threshold=1.0)

    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

    print(data)
    return None


def pca():
    """
    主成分分析进行特征降维
    :return: None
    """
    pca = PCA(n_components=0.9)

    data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])

    print(data)

    return None


if __name__ == "__main__":
    pca()

猜你喜欢

SwiftUI 开发经验之为离线优先的应用程序设计数据层
【BZOJ5104】Fib数列（BSGS，二次剩余）
Google Earth Engine（GEE）——全球红树林数据集
linux字符设备概念
1030 Travel Plan (dfs, 旅行者问题，详解)
IOS上面需要点击两次才跳转页面
hdu 2516 取石子游戏 (Fibonacci博弈)
【BZOJ1934】善意的投票（网络流）
软件定义存储这么火，你如何从中分一杯羹？
C#高级编程八十三天----程序集的含义
晋IT分享成长沙龙集锦

相关主题

机器学习_knn算法_2
机器学习之深度学习
机器学习 — 推荐系统
机器学习优化算法

zl程序教程

当前栏目

传智播客机器学习之数据降维学习笔记

特征选择原因

特征选择是什么

sklearn特征选择API

VarianceThreshold语法

VarianceThreshold流程(代码演示)

sklearn降维API

PCA(主成分分析)

PCA是什么

PCA语法

PCA流程(代码演示)

相关文章

当前栏目

传智播客 机器学习之数据降维 学习笔记

特征选择原因

特征选择是什么

sklearn特征选择API

VarianceThreshold语法

VarianceThreshold流程(代码演示)

sklearn降维API

PCA(主成分分析)

PCA是什么

PCA语法

PCA流程(代码演示)

相关文章

传智播客机器学习之数据降维学习笔记