《Scala机器学习》一一第2章 数据管道和建模
上一章介绍了一些研究数据的基本工具。本章将深入介绍一些更复杂的主题,其中包括建立统计模型、最优控制以及科学驱动(science-driven)的工具等问题。不过事先声明,本书只会涉及最优控制的若干主题,因为本书是介绍基于Scala的机器学习(ML),而不是数据驱动的企业管理理论,企业管理理论本身就足以写成一本书。
本章不会介绍基于Scala的具体实现,而是在一个高层次上探讨构建数据驱动型企业的问题。后面的章节将详细讨论如何实现这些细节。本章也特别强调不确定性的处理。不确定性通常包含几个因素:首先,所得的信息肯定包含有噪声;其次,信息可能是不完整的,而系统在填充缺失部分时可能会有一定的随意性,这会带来不确定性。最后,可能对模型的解释和度量结果也存在差异,这一点容易被忽略,因为大多数经典教材都认为可以直接度量这些数据。但度量过程可能有噪音,而且度量的定义也是随时间变化的,比如满意度或幸福感的度量。当然,可以像通常所做的那样,只优化度量指标来避免歧义性。但这样做显然限制了应用领域。科学研究总是可以找到处理不确定性的方法。
预测的模型通常只是为理解数据而构建。从语言的衍化角度而言,模型是现实中复杂事物或处理过程的一种简化表示,以此来表明自己的观点并让人信服。预测模型的最终目标是通过为了找出最重要的影响因子来优化业务流程,使世界变得更美好。这正是本书(特别是本章)所关注的内容。建立预测模型必然有许多不确定因素,但是至少比优化点击率之类的模型要好得多。
传统的商业决策过程是这样的:传统商业可能是多个公司的高级主管做出的决策,该决策会基于一组可交互的图形信息,这些信息来自一个或多个数据库。自动化数据驱动业务声称能够自动做出不带主观因素的决策。但这并不是说不需要高级管理人员了,他们要帮助机器来做决策。
本章会涉及如下内容:
了解影响图的基本知识
在自适应Markov决策过程和Kelly准则下研究纯决策优化的各种情况
熟悉至少三种不同的实用策略,以便进行权衡
描述数据驱动的企业体系结构
讨论决策流程(pipeline)的主要结构组件
熟悉建立数据管道的标准工具
相关文章
- 李宏毅机器学习_11-0深度生成模型(上下)
- (《机器学习》完整版系列)第2章 模型评估与选择 ——2.8 学习器的比较(除用ROC等工具外,还可用统计检验手段)
- 百度面试——机器学习实习
- 机器学习笔记之狄利克雷过程(一)基本介绍
- 机器学习笔记之条件随机场(四)建模对象描述(参数表示vs向量表示)
- 小白学数据:一文看懂机器学习
- 面向机器学习的自然语言标注3.1 语料库分析中的基本概率知识
- 看穿机器学习(W-GAN模型)的黑箱
- 一位缺觉的父亲记录了他双胞胎宝宝的睡眠数据 并交给机器学习,结果……
- 谷歌发布基于机器学习的Android APP安全检测系统:Google Play Protect
- 机器学习算法(二十一):核密度估计 Kernel Density Estimation(KDE)
- 《Android游戏开发详解》——第2章,第2.2节设置开发机器
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——1.3 向NLTK迈进
- Python3机器学习之02通过计算熵来选择分组
- 【毕业设计_课程设计】基于STM32的六臂行走机器小车设计(源码+论文)
- 機器學習基石 机器学习基石(Machine Learning Foundations) 作业1 习题解答
- 机器学习-异常检测算法(一):Isolation Forest
- 【吴恩达机器学习】Week6 编程作业ex5——正则化线性回归与偏差和方差的对比