攻关克难:大数据系统中的预测技术
大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据;而反过来,任何大数据系统自然也一定会支持预测建模。
而事实上,这两者并非一回事。尽管通过访问海量数据与新的数据类型,开发出更好的预测模型的能力会得到显著增强。但是分析管理人员与其团队需要更多考虑数据的构成,以及在大数据环境中如何管理这类基础性问题。
首先,让我们审视预测分析过程本身。在主流的预测分析过程中,会涉及到某些与业务应用相集成的统计分析与模式匹配,从而推动运营决策与操作。但是,预测模型的实时需要多项步骤,其中包括:
数据准备工作,清理、转换与重组数据,使其符合预测分析或机器学习算法所需的格式。包括分析数据、寻找异常、确定应用和待修复的数据质量标准类型、设计适合分析的数据模型,并执行转换,使数据集保持一致。
预测模型开发,包括创建试用数据集,选择特定算法进行处理,从而测试某些分析模式。这一步需要有计划地进行,将被分析的数据分为不同的子集,包括试用数据集和一份或多份测试数据集。
测试过程,即在各模型上运行测试数据集,对性能加以评估,从而确定哪种模型能够得到最佳效果。
集成与实施,选中的模型被纳入生产业务流程、实际上线、并产生真实的分析结果,以此采取行动。
调整所选的预测模型以确保其持续有效与准确,重复分析、不断更新。
大数据带来特定的挑战
接下来,让我们看看大数据环境中出名的3V数据——即容量,多样性和速度——并思考在大数据环境,预测分析过程中必须解决的一些特定挑战。
数据容量。除了那些显而易见的,与管理与海量数据有关的考量因素,包括数据获取、分段和防止延迟,你必须有精简的流程,从而支持各不同阶段的分析过程。例如,你需要能够提取到可以使用不同算法快速分析的试用数据集,也需要能够充分反映整体数据的那部分信息。
数据的多样化。企业越来越多地得到各式各样的数据输入,从传统的结构化数据到日益增长的非结构化数据类型。而且,随着更多的非结构化数据流成为业务流程中不可或缺的组成部分,例如对推特信息流的持续监测可以识别客户情绪,非结构化数据正成为预测模型必不可少的数据源。这意味着你必须拥有一套非常强大的流程,用于扫描、分析和处理非结构化数据,以将其转化为可用作分析算法输入的数据集。
数据的速度。处理大量不同数据所带来的复杂性,与更快速的数据流输入速度叠加。使得你不仅必须能够处理输入速度更快的数据源,而且需要应对这些数据源的结构或格式可能会发生的变化。更要命的是,这种变化通常难以预测,因此迫切需要做好数据分析与准备工作。
智慧的分析策略
设计大数据系统预测分析策略能够应对上述挑战,以便你可以成功管理或优化流程中的关键点。
例如,考虑如何将庞大的数据集合转化为容量更为合理的试用数据块。在某些情况下,最佳实践是,不要随机选择试用数据集,而是通过过滤器来减少数据集合的大小,这样或许会消除特例的那部分记录。另外一些情况中,你的目标可能是增加大数据系统的计算资源,使分析算法有能力处理更大的训练集——并且无需过滤任何记录。
另一个例子是,解决数据在速度方面挑战或许意味着扩大系统对数据流的吞吐能力,从而可以让每个数据逐一进入预测模型;当然,你同样可以降低模型的复杂度,以便更快速地加以执行。
当涉及到设计、工程量、复杂性和成本这些问题时,每一次选择都意味着相应的取舍。一组更精确的预测模型可能需要更多的处理和存储资源,但分析带来的优势或许会超越所增加的成本。又或者,你所在的企业组织也许可以从并不复杂的模型中,以较少的处理资源,获得大数据应用中的预测分析能力。
预测分析必须与大数据处理相结合,从而为分析管理人员、甚至企业高层提供所期待的结果。要做到这一点,就必须弄清楚如何在预测分析带来的收益与大数据所需的性能和管理之间做出平衡。
相关文章
- 在 Go 里用 CGO?这 7 个问题你要关注!
- 9款优秀的去中心化通讯软件 Matrix 的客户端
- 求职数据分析,项目经验该怎么写
- 在OKR中,我看到了数据驱动业务的未来
- 火山引擎云原生大数据在金融行业的实践
- OpenHarmony富设备移植指南(二)—从postmarketOS获取移植资源
- 《数据成熟度指数》报告:64%的企业领袖认为大多数员工“不懂数据”
- OpenHarmony 小型系统兼容性测试指南
- 肯睿中国(Cloudera):2023年企业数字战略三大趋势预测
- 适用于 Linux 的十大命令行游戏
- GNOME 截图工具的新旧截图方式
- System76 即将推出的 COSMIC 桌面正在酝酿大变化
- 2GB 内存 8GB 存储即可流畅运行,Windows 11 极致精简版系统 Tiny11 发布
- 迎接 ecode:一个即将推出的具有全新图形用户界面框架的现代、轻量级代码编辑器
- loongarch架构介绍(三)—地址翻译
- Go 语言怎么解决编译器错误“err is shadowed during return”?
- 敏捷:可能被开发人员遗忘的部分
- Denodo预测2023年数据管理和分析的未来
- 利用数据推动可持续发展
- 在 Vue3 中实现 React 原生 Hooks(useState、useEffect),深入理解 React Hooks 的