zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

《R语言数据挖掘》----1.9 机器学习

机器学习语言 ---- 数据挖掘 1.9
2023-09-11 14:16:10 时间
本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.9节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.9 机器学习

应用于机器学习算法的数据集称为训练集,它由一组成对的数据(x, y)构成,称为训练样本。成对的数据解释如下:
x:这是一个值向量,通常称为特征向量。每个值或者特征,要么是分类变量(这些值来自一组离散值,比如{S, M, L}),要么是数值型。

y:这是一个标签,表示x的分类或者回归值。

机器学习过程的目的就是发现一个函数y=f(x),它能最好地预测与每一个x值相关联的y值。原则上y的类型是任意的,但有一些常见的和重要的类型:
y:这是一个实数,机器学习问题称为回归。

y:这是一个布尔值,真或者假,通常分别写为+1和-1。在这种情况下,机器学习问题称为二元分类。

y:这是某些有限集合的成员。这个集合的成员可以认为是类,并且每个成员代表一类。此机器学习问题称为多级分类。

y:这是某些潜在无限集合的成员,例如,x的一个解析树,它被解析为一个句子。

到现在为止,在我们可以更直接地描述挖掘目标的情况下,还没有证明机器学习是成功的。机器学习和数据挖掘是两个不同的主题,尽管它们共享一些算法——特别是目标为提取信息时。在某些情况下,机器学习是有意义的,一个典型的情形就是当我们试图从数据集中寻找某些信息。

1.9.1 机器学习方法

算法的主要类型均列于下方,每个算法由函数f区分。

决策树(decision tree):这种形式的f呈树形,树的每个节点都有一个关于x的函数,用来确定必须搜索哪个子节点或者哪些子节点。

感知器(perceptron):这些是应用于向量x={x1, x2, …, xn}的分量的阈值函数。对每个i=1, 2, …, n,权重wi与第i个分量相关联,且有一个阈值wixi≥θ。如果阈值满足条件,输出为+1,否则为-1。

神经网络(neural net):这些是有感知器的非循环网络,某些感知器的输出用作其他感知器的输入。

基于实例的学习(instance-based learning):此方法使用整个训练集来表
示函数f。

支持向量机(support-vector machine):该类的结果是一个分类器,它对未知数据更准确。分类的目标是寻找最优超平面,通过最大化两个类的最近点之间的间隔将它们分隔。

1.9.2 机器学习架构

这里,机器学习的数据方面指的是处理数据的方式以及使用数据构建模型的方式。

训练和测试(training and testing):假定所有数据都适用于训练,分离出一小部分可用的数据作为测试集,使用余下的数据建立一个合适的模型或者分类器。

批处理与在线学习(batch versus online learning):对于批处理方式,在其进程的开始,整个训练集都是可得到的;对于在线学习,其训练集以数据流的形式获得,且对它进行处理后不能被再次访问。

特征选择(feature selection):这有助于找出那些用作学习算法输入的特征。

创建训练集(creating a training set):通过手动创建标签信息,从而把数据变为训练集。


全网最快入门———R语言机器学习实战篇9《因子分析》 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇8《主成分分析》 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇7《logistic回归》 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇6《广义线性模型》 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇6《功效分析》 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇5 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇4 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇3 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇2 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
全网最快入门———R语言机器学习实战篇1 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。