《Python机器学习——预测分析核心算法》——1.6 各章内容及其依赖关系
本节书摘来异步社区《Python机器学习——预测分析核心算法》一书中的第1章,第1.6节,作者:【美】Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.6 各章内容及其依赖关系依赖于读者的背景和是否有时间来了解基本原理,读者可以采用不同的方式来阅读本书。图1-7为本书各章之间的依赖关系。
![04bd2335bc62361790d9d63523ac7363191b2afd](https://yqfile.alicdn.com/04bd2335bc62361790d9d63523ac7363191b2afd.png)
第2章仔细审视各种数据集。这些数据集用于本书中的问题实例,用以说明算法的使用,以及各种算法之间基于性能和其他特征的比较。面对一个新的机器学习问题的起点就是深入专研数据集,深入理解数据集,了解它们的问题和特质。第2章的部分内容就是展示Python中可以用于数据集探索的一些工具集。可以浏览第2章中的部分例子,不需要阅读全部例子就可以了解整个流程,当在后续章节遇到具体的应用实例时,可以返回到第2章阅读相关的部分。
第3章主要介绍机器学习问题中的基本权衡、贯穿本书的关键概念。一个关键概念就是预测问题的数学描述,也会涉及分类和回归问题的差别。第3章也介绍了如何使用样本外(out-of-sample)数据(测试数据)来评估预测模型的性能。样本外数据是指在模型训练过程中不包括的数据。一个好的机器学习实践者要求对一个实际部署的预测模型的性能表现有相对稳定的预估。这就要求使用训练数据集以外的数据来模拟新的数据。第3章将介绍这么做的原因、实现的方法以及这些方法之间如何取舍。另外一个重要的概念就是系统性能的测量方法,第3章将描述这些方法以及它们之间的取舍。对机器学习比较熟悉的读者可以浏览本章,快速略过代码实例,而不需要仔细阅读代码然后运行代码。
第4章介绍训练惩罚回归模型的核心思想,以及基本概念及算法的来源。第3章引入的一些实例导致了惩罚线性回归方法的产生。第4章展示了解决惩罚线性回归训练问题的核心算法代码,以及线性回归方法的几种扩展。一种扩展是将因素变量(factor variable)编码为实数,这样就可以使用线性回归方法。线性回归方法只能用在预测值是数值的情况下,也就是说需要对预测值进行量化。许多实际的重要问题通常的变量是这样的形式:“单身、已婚或离异”等,这种变量对做预测是很有帮助的。如果要引入此种类型的变量(类别变量,categorical variables)到一个线性回归模型,意味着需要设计一种转换方法将类别变量转换为实数变量,第4章将会介绍这些方法。第4章还介绍叫作基扩展(basis expansion)的方法,此方法从非线性回归中获得非线性函数,有时基扩展用于进一步从线性回归中“挤榨”出一些性能的提升。
第5章将第4章介绍的惩罚回归算法应用于第2章提到的问题中。本章概述实现了惩罚回归算法的Python工具包,并用这些工具包来解决问题。本章的目的是尽可能覆盖广泛的各类问题的变体,这样当读者遇到一个问题时,可以找到一个最接近的问题作为借鉴。除了量化并比较预测的性能,第5章也考查这些算法的其他特征。理解特征的选择、特征的重要性(对最终预测结果的贡献)是很重要的,这种理解能力可以加快面临新问题时的开发进程。
第6章关注集成方法。因为集成方法绝大多数情况下基于二元决策树,第一步就是理解训练和使用二元决策树的原则。集成方法的很多特性都是直接继承于二元决策树。基于上述理解,本章介绍3个主要的集成方法: Bagging、提升(boosting)和随机森林。上述每个算法都介绍了使用的基本原则、核心算法的代码,这样读者就会了解如何使用这些算法。
第7章应用集成方法来解决第2章中的问题,然后对各种算法进行对比分析。对比分析的内容包括:预测的性能、训练所需的时间和性能等。所有的算法会给出特征的重要性打分。对于特定的问题会对比分析特征在不同的算法中对预测结果的重要性。
以笔者的经验,向程序员和计算机科学家教授机器学习,代码实例要优于数学公式。这就是本书所采用的方法:提供一些基础的数学知识、算法框架和代码实例来说明算法的关键点。本书讨论的几乎所有的算法都可以在本书或网站上找到代码,这么做的初衷就是让读者能够尽快运行代码并解决面临的实际问题。
python接口自动化(三十二)--Python发送邮件(常见四种邮件内容)番外篇——上(详解) 本篇文章与前边没有多大关联,就是对前边有关发邮件的总结和梳理。在写脚本时,放到后台运行,想知道执行情况,会通过邮件、SMS(短信)、飞信、微信等方式通知管理员,用的最多的是邮件。在linux下,Shell脚本发送邮件告警是件很简单的事,有现成的邮件服务软件或者调用运营商邮箱服务器
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
相关文章
- 【Python】ValueError: unsupported pickle protocol: 5解决方案/同一个项目 python环境尽量保持一致
- 软件——机器学习与Python,输入输出的用法
- Python 卸载python
- 安装Python的机器学习包Sklearn 出错解决方法
- 请问Python零基础学会可以做哪些?python是不是很难学?
- 人生苦短,我用Python!为什么现在越来越多的人转行python?
- python基础——递归函数
- 机器学习编程语言之争,Python夺魁
- 【Python】【PyPI】twine模块打包python项目上传pypi
- Python之zip
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——1.5 小结
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2 文本清理
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.5 词干提取
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.6 词形还原
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.10 练习
- 《Python机器学习——预测分析核心算法》——第1章 关于预测的两类核心算法
- 《Python机器学习——预测分析核心算法》——1.3 什么是集成方法
- 《Python机器学习——预测分析核心算法》——小结
- 《Python机器学习——预测分析核心算法》——第2章 通过理解数据来了解问题
- 《Python机器学习——预测分析核心算法》——2.2 分类问题:用声纳发现未爆炸的水雷
- 《Python机器学习——预测分析核心算法》——2.3 对“岩石vs.水雷”数据集属性的可视化展示
- 《Python机器学习——预测分析核心算法》——小结
- 《Python机器学习——预测分析核心算法》——导读
- Python数据处理Tips机器学习英文数据集8种算法应用
- Python机器学习零基础理解XGBoost
- 使用 Python 机器学习的糖尿病预测模型
- python基本语法
- 机器学习算法与Python实践之(四)支持向量机(SVM)实现
- 华为OD机试 - 绘图机器(Python)
- 【机器学习算法-python实现】协同过滤(cf)的三种方法实现
- 数学思想方法-python计算战(8)-机器视觉-二值化
- Python的日志功能
- 【机器学习】:Kmeans均值聚类算法原理(附带Python代码实现)
- Python 数字数据类型
- 机器学习之支持向量机SVM之python实现ROC曲线绘制(二分类和多分类)
- 机器学习——python实现SVM模型w,b的查看