zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

《Scala机器学习》一一第2章 数据管道和建模

2023-09-11 14:19:11 时间
第2章 数据管道和建模

上一章介绍了一些研究数据的基本工具。本章将深入介绍一些更复杂的主题,其中包括建立统计模型、最优控制以及科学驱动(science-driven)的工具等问题。不过事先声明,本书只会涉及最优控制的若干主题,因为本书是介绍基于Scala的机器学习(ML),而不是数据驱动的企业管理理论,企业管理理论本身就足以写成一本书。
本章不会介绍基于Scala的具体实现,而是在一个高层次上探讨构建数据驱动型企业的问题。后面的章节将详细讨论如何实现这些细节。本章也特别强调不确定性的处理。不确定性通常包含几个因素:首先,所得的信息肯定包含有噪声;其次,信息可能是不完整的,而系统在填充缺失部分时可能会有一定的随意性,这会带来不确定性。最后,可能对模型的解释和度量结果也存在差异,这一点容易被忽略,因为大多数经典教材都认为可以直接度量这些数据。但度量过程可能有噪音,而且度量的定义也是随时间变化的,比如满意度或幸福感的度量。当然,可以像通常所做的那样,只优化度量指标来避免歧义性。但这样做显然限制了应用领域。科学研究总是可以找到处理不确定性的方法。
预测的模型通常只是为理解数据而构建。从语言的衍化角度而言,模型是现实中复杂事物或处理过程的一种简化表示,以此来表明自己的观点并让人信服。预测模型的最终目标是通过为了找出最重要的影响因子来优化业务流程,使世界变得更美好。这正是本书(特别是本章)所关注的内容。建立预测模型必然有许多不确定因素,但是至少比优化点击率之类的模型要好得多。
传统的商业决策过程是这样的:传统商业可能是多个公司的高级主管做出的决策,该决策会基于一组可交互的图形信息,这些信息来自一个或多个数据库。自动化数据驱动业务声称能够自动做出不带主观因素的决策。但这并不是说不需要高级管理人员了,他们要帮助机器来做决策。
本章会涉及如下内容:
了解影响图的基本知识
在自适应Markov决策过程和Kelly准则下研究纯决策优化的各种情况
熟悉至少三种不同的实用策略,以便进行权衡
描述数据驱动的企业体系结构
讨论决策流程(pipeline)的主要结构组件
熟悉建立数据管道的标准工具