传智播客 机器学习之数据降维 学习笔记
2023-09-27 14:25:49 时间
特征选择原因
•
冗余:部分特征的相关度高,容易消耗计算
性能
•
噪声:部分特征对预测结果有负影响
特征选择是什么
特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,
特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯
定比选择前小,毕竟我们只选择了其中的一部分特征。
主要方法(三大武器):Filter(过滤式):VarianceThreshold
Embedded(嵌入式):正则化、决策树
Wrapper(包裹式)
sklearn特征选择API
sklearn.feature_selection.VarianceThreshold
VarianceThreshold语法
•
VarianceThreshold
(threshold = 0.0
)
•
删除所有低方差特征
•
Variance
.
fit_transform
(
X,y
)
•
X:numpy array
格式的数据
[
n_samples,n_features
]
•
返回值:
训练集差异低于
threshold
的特征将被删除。
•
默认值是保留所有非零方差特征,即删除所有样本
•
中具有相同值的特征。
VarianceThreshold流程(代码演示)
sklearn降维API
•sklearn. decomposition
PCA(主成分分析)
PCA是什么
本质:PCA是一种分析、简化数据集的技术
目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。
作用:可以削减回归分析或者聚类分析中特征的数量
高维度数据容易出现的问题:•特征之间通常是线性相关的
PCA语法
•
PCA(
n_components
=None
)
•
将数据分解为较低维数空间
•
PCA
.
fit_transform
(X)
•
X:numpy array
格式的数据
[
n_samples,n_features
]
•
返回值:转换后
指定维度
的
array
PCA流程(代码演示)
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Imputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np
# 特征抽取
#
# 导入包
# from sklearn.feature_extraction.text import CountVectorizer
#
# # 实例化CountVectorizer
#
# vector = CountVectorizer()
#
# # 调用fit_transform输入并转换数据
#
# res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
#
# # 打印结果
# print(vector.get_feature_names())
#
# print(res.toarray())
def dictvec():
"""
字典数据抽取
:return: None
"""
# 实例化
dict = DictVectorizer(sparse=False)
# 调用fit_transform
data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
print(dict.get_feature_names())
print(dict.inverse_transform(data))
print(data)
return None
def countvec():
"""
对文本进行特征值化
:return: None
"""
cv = CountVectorizer()
data = cv.fit_transform(["人生 苦短,我 喜欢 python", "人生漫长,不用 python"])
print(cv.get_feature_names())
print(data.toarray())
return None
def cutword():
con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。")
con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。")
con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")
# 转换成列表
content1 = list(con1)
content2 = list(con2)
content3 = list(con3)
# 吧列表转换成字符串
c1 = ' '.join(content1)
c2 = ' '.join(content2)
c3 = ' '.join(content3)
return c1, c2, c3
def hanzivec():
"""
中文特征值化
:return: None
"""
c1, c2, c3 = cutword()
print(c1, c2, c3)
cv = CountVectorizer()
data = cv.fit_transform([c1, c2, c3])
print(cv.get_feature_names())
print(data.toarray())
return None
def tfidfvec():
"""
中文特征值化
:return: None
"""
c1, c2, c3 = cutword()
print(c1, c2, c3)
tf = TfidfVectorizer()
data = tf.fit_transform([c1, c2, c3])
print(tf.get_feature_names())
print(data.toarray())
return None
def mm():
"""
归一化处理
:return: NOne
"""
mm = MinMaxScaler(feature_range=(2, 3))
data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
print(data)
return None
def stand():
"""
标准化缩放
:return:
"""
std = StandardScaler()
data = std.fit_transform([[ 1., -1., 3.],[ 2., 4., 2.],[ 4., 6., -1.]])
print(data)
return None
def im():
"""
缺失值处理
:return:NOne
"""
# NaN, nan
im = Imputer(missing_values='NaN', strategy='mean', axis=0)
data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
print(data)
return None
def var():
"""
特征选择-删除低方差的特征
:return: None
"""
var = VarianceThreshold(threshold=1.0)
data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
print(data)
return None
def pca():
"""
主成分分析进行特征降维
:return: None
"""
pca = PCA(n_components=0.9)
data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
print(data)
return None
if __name__ == "__main__":
pca()
相关文章
- 神经网络与机器学习 笔记—小规模和大规模学习问题
- [吴恩达机器学习笔记]14降维1-2降维的应用数据压缩与数据可视化
- 机器学习笔记之生成模型综述(五)重参数化技巧(随机反向传播)
- 机器学习笔记之生成模型综述(二)监督学习与无监督学习
- 机器学习笔记之前馈神经网络(二)非线性问题
- 机器学习笔记之变分推断(四)随机梯度变分推断(SGVI)
- 机器学习笔记之EM算法(二)EM算法公式推导过程
- 机器学习笔记之支持向量机(四)软间隔SVM
- 机器学习笔记之线性分类——感知机算法
- 机器学习笔记之线性回归
- Andrew Ng机器学习公开课笔记 -- 线性回归和梯度下降
- Andrew Ng机器学习公开课笔记 -- Logistic Regression
- Andrew Ng机器学习公开课笔记 -- 朴素贝叶斯算法
- Andrew Ng机器学习公开课笔记 -- 学习理论
- Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm
- Andrew Ng机器学习公开课笔记 – Factor Analysis
- 吴恩达机器学习笔记 —— 13 支持向量机
- 机器学习笔记——贝叶斯学习