小白如何入门机器学习?
来源:智能财会联盟本文约2200字,建议阅读9分钟本文从五个方面带你入门机器学习:什么是机器学习?工作流程是什么?机器学习算法有哪些?模型评估学习以及Azure机器学习模型搭建实验。
一、什么是机器学习
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
二、机器学习工作流程
- 获取数据
- 数据基本处理
- 特征工程
- 机器学习(模型训练)
- 模型评估
结果达到要求,上线服务。没有达到要求,重新上面步骤。
2.1 获取到的数据集介绍
数据简介
在数据集中一般:
- 一行数据我们称为一个样本;
- 一列数据我们成为一个特征;
- 有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)。
数据类型构成:
- 数据类型一:特征值+目标值(目标值是连续的和离散的);
- 数据类型二:只有特征值,没有目标值。
数据分割
机器学习一般的数据集会划分为两个部分:
- 训练数据:用于训练,构建模型;
- 测试数据:在模型检验时使用,用于评估模型是否有效。
划分比例:
- 训练集:70% 80% 75%
- 测试集:30% 20% 25%
2.2 数据基本处理
即对数据进行缺失值、去除异常值等处理。
2.3 特征工程
2.3.1 什么是特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
意义:会直接影响机器学习的效果。
2.3.2 为什么需要特征工程(Feature Engineering)
机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”
注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
2.3.3 特征工程包含内容
- 特征提取
- 特征预处理
- 特征降维
2.3.4 各概念具体解释
- 特征提取
将任意数据(如文本或图像)转换为可用于机器学习的数字特征。
- 特征预处理
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。
- 特征降维
指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
2.4 机器学习
选择合适的算法对模型进行训练。
2.5 模型评估
对训练好的模型进行评估。
三、机器学习算法分类
根据数据集组成不同,可以把机器学习算法分为:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
3.1 监督学习
定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。
3.1.1 回归问题
例如:预测房价,根据样本集拟合出一条连续曲线。
3.1.2 分类问题
例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。
3.2 无监督学习
定义:输入数据是由输入特征值组成,没有目标值。
- 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
- 需要根据样本间的相似性对样本集进行类别划分。
举例:
有监督,无监督算法对比:
3.3 半监督学习
定义:训练集同时包含有标记样本数据和未标记样本数据。
举例:
- 监督学习训练方式:
- 半监督学习训练方式
3.4 强化学习
定义:实质是make decisions 问题,即自动进行决策,并且可以做连续决策。
举例:小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他
完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素:agent, action, reward, environment, observation;
强化学习的目标就是获得最多的累计奖励。
监督学习和强化学习的对比:
四、模型评估
4.1 分类模型评估
准确率:预测正确的数占样本总数的比例。
其他评价指标:精确率、召回率、F1-score、AUC指标等
4.2 回归模型评估
均方根误差(Root Mean Squared Error,RMSE)
- RMSE是一个衡量回归模型误差率的常用公式。不过,它仅能比较误差是相同单位的模型。
举例:
假设上面的房价预测,只有五个样本,对应的:
真实值为:100,120,125,230,400
预测值为:105,119,120,230,410
那么使用均方根误差求解得:
其他评价指标:相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差 (Relative Absolute Error,RAE)
4.3 拟合
模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。
在训练过程中,你可能会遇到如下问题:
训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?
当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。
4.3.1 欠拟合
因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
欠拟合(under-fitting):模型学习地太过粗糙,连训练集中的样本数据特征关系都没有学出来。
4.3.2 过拟合
机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。
过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。
五、Azure机器学习模型搭建实验
Azure平台简介:
Azure Machine Learning(简称“AML”)是微软在其公有云Azure上推出的基于Web使用的一项机器学习服务,机器学习属人工智能的一个分支,它技术借助算法让电脑对大量流动数据集进行识别。这种方式能够通过历史数据来预测未来事件和行为,其实现方式明显优于传统的商业智能形式。
微软的目标是简化使用机器学习的过程,以便于开发人员、业务分析师和数据科学家进行广泛、便捷地应用。
这款服务的目的在于“将机器学习动力与云计算的简单性相结合”。
AML目前在微软的Global Azure云服务平台提供服务,用户可以通过站点: https://studio.azureml.net/ 申请免费试用。
- Azure机器学习实验
实验目的:了解机器学习从数据到建模并最终评估预测的整个流程。
编辑:黄继彦
相关文章
- 利用机器学习构建我国历史PM2.5浓度数据集
- 快速入门Python机器学习(14)
- 快速入门Python机器学习(15)
- 快速入门Python机器学习(18)
- 快速入门Python机器学习(25)
- 快速入门Python机器学习(27)
- 快速入门Python机器学习(30)
- 快速入门Python机器学习(34)
- 快速入门Python机器学习(35)
- 快速入门Python机器学习(37)
- lasso回归matlab,机器学习Lasso回归重要论文和Matlab代码「建议收藏」
- 机器学习(二):有监督学习、无监督学习和半监督学习
- 机器学习十大经典算法入门[通俗易懂]
- Anaconda:初学Python、入门机器学习的首选
- 23个机器学习最佳入门项目(附源代码)
- 机器学习网格搜索寻找最优参数[通俗易懂]
- 机器学习_knn算法_2
- 机器学习项目大汇总,值得收藏!
- 代替Git进行机器学习实验管理的工具推荐
- Nat. Comput. Sci. | 化学反应网络和机器学习的机会
- 30行代码用streamlit构建你的机器学习模型应用
- A.机器学习入门算法(九): 基于线性判别模型的LDA手写数字分类识别
- A.机器学习入门算法(五):基于企鹅数据集的决策树分类预测
- WAIC 2021 | 好未来集团技术副总裁吴中勤:多模态机器学习及大规模自动生成技术算法框架与行业实践
- 努力不见效?零基础带你入门机器学习(每周免费更新)
- 【机器学习】看得见的高斯过程:这是一份直观的入门解读
- 机器学习训练集之traing 、validation、test data set详解程序员
- Spark入门实战系列–8.Spark MLlib(上)–机器学习及SparkMLlib简介详解大数据
- Python机器学习入门详解编程语言
- 机器学习正在安全领域挂起一阵小旋风,但这里面有BUG
- Python粉都应该知道的开源机器学习框架:Scikit-learn入门指南
- 机器学习零基础?手把手教你用TensorFlow搭建图像分类器| 干货