您现在的位置是：首页 > 后端

当前栏目

【机器学习算法-python实现】PCA 主成分分析、降维

Python 机器算法学习实现分析 PCA 成分

2023-09-27 14:27:08 时间

PCA(Principal Component Analysis)，PAC的作用主要是降低数据集的维度，然后挑选出主要的特征。 PCA的主要思想是移动坐标轴，找到方差最大的方向上的特征值，什么叫方差最大的方向的特征值呢。就像下图中的曲线B，一样，它的覆盖范围最广。

基本步骤：（1）首先计算数据集的协方差矩阵（2）计算协方差矩阵的特征值和特征向量（3）保留最重要的n个特征 what is 协方差矩阵：

定义是变量向量减去均值向量，然后乘以变量向量减去均值向量的转置再求均值。例如x是变量，μ是均值，协方差矩阵等于E[(x-μ)(x-μ)^t]，物理意义是这样的，例如x=（x1,x2,...,xi）那么协方差矩阵的第m行n列的数为xm与xn的协方差，若m=n，则是xn的方差。如果x的元素之间是独立的，那么协方差矩阵只有对角线是有值，因为x独立的话对于m≠n的情况xm与xn的协方差为0。另外协方差矩阵是对称的。

可以参考wiki：（http://zh.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE%E7%9F%A9%E9%98%B5） 2.代码实现伪代码如下（摘自机器学习实战）：

fr = open(fileName) stringArr = [line.strip().split(delim) for line in fr.readlines()] datArr = [map(float,line) for line in stringArr] return mat(datArr) def pca(dataMat, topNfeat=9999999): meanVals = mean(dataMat, axis=0) meanRemoved = dataMat - meanVals #remove mean covMat = cov(meanRemoved, rowvar=0) eigVals,eigVects = linalg.eig(mat(covMat)) eigValInd = argsort(eigVals) #sort, sort goes smallest to largest eigValInd = eigValInd[:-(topNfeat+1):-1] #cut off unwanted dimensions redEigVects = eigVects[:,eigValInd] #reorganize eig vects largest to smallest lowDDataMat = meanRemoved * redEigVects#transform data into new dimensions reconMat = (lowDDataMat * redEigVects.T) + meanVals return lowDDataMat, reconMat def plotBestFit(dataSet1,dataSet2): dataArr1 = array(dataSet1) dataArr2 = array(dataSet2) n = shape(dataArr1)[0] n1=shape(dataArr2)[0] xcord1 = []; ycord1 = [] xcord2 = []; ycord2 = [] xcord3=[];ycord3=[] for i in range(n): xcord1.append(dataArr1[i,0]); ycord1.append(dataArr1[i,1]) xcord2.append(dataArr2[i,0]); ycord2.append(dataArr2[i,1]) fig = plt.figure() ax = fig.add_subplot(111) ax.scatter(xcord1, ycord1, s=30, c=red, marker=s) ax.scatter(xcord2, ycord2, s=30, c=green) plt.xlabel(X1); plt.ylabel(X2); plt.show()

loadDataSet函数是导入数据集。 PCA输入参数：参数一是输入的数据集，参数二是提取的维度。比如参数二设为1，那么就是返回了降到一维的矩阵。 PCA返回参数：参数一指的是返回的低维矩阵，对应于输入参数二。参数二对应的是移动坐标轴后的矩阵。
上一张图，绿色为原始数据，红色是提取的2维特征。

3.代码下载下载地址：请点击我

/********************************

* 本文来自博客 “李博Garvin“

* 转载请标明出处:http://blog.csdn.net/buptgshengod

******************************************/

python机器学习数据建模与分析——数据预测与预测建模机器学习的预测建模在多个领域都具有重要的应用价值，包括个性化推荐、商品搜索、自动驾驶、人脸识别等。本篇文章将带领大家了解什么是预测建模
PCA主成分分析的可视化（Python）主成分分析是一种无监督的机器学习技术。可能它最常见的用处就是数据的降维。主成分分析除了用于数据预处理，也可以用来可视化数据。一图胜万言。一旦数据可视化，在我们的机器学习模型中就可以更容易得到一些洞见并且决定下一步做什么。
Python机器学习笔记使用scikit-learn工具进行PCA降维 Python机器学习笔记使用scikit-learn工具进行PCA降维之前总结过关于PCA的知识：深入学习主成分分析（PCA）算法原理。这里打算再写一篇笔记，总结一下如何使用scikit-learn工具来进行PCA降维。
傲海著有《机器学习实践应用》，阿里云机器学习PAI产品经理，个人微信公众号 ldquo;凡人机器学习 rdquo;。

猜你喜欢

Docker 简介、下载安装
bat文件转换为exe文件
Get Argument Values From Linq Expression
《Arduino家居安全系统构建实战》——2.8 我们学到了什么？
"无限流量"仍有条件：何时才能替代WiFi？
shell:循环
【BZOJ2553】[BeiJing2011]禁忌 AC自动机+期望DP+矩阵乘法
多本Web前端深度修炼书籍(提供网盘下载链接)
Scrapy源码阅读分析_2_启动流程
Ajax请求服务端的五种方式
Java Linux下部署Springboot在任意文件夹或tomcat下并使用nginx代理实现域名访问
企业全光网将成运营商部署千兆接入的商业驱动力

相关主题

Python 文件
Python例子二
Python资源
python中文处理
python-字典
Python机器学习·微教程
python的getattr()

zl程序教程

当前栏目

【机器学习算法-python实现】PCA 主成分分析、降维

相关文章