zl程序教程

您现在的位置是:首页 >  IT要闻

当前栏目

大数据与机器学习:实践方法与行业案例.2.6 本章小结

2023-03-09 22:21:41 时间

2.6 本章小结


本章围绕数据体系提出了数据闭环的概念,对数据闭环的特征进行了描述,并且进一步介绍了构建数据闭环所涉及的方法和技术。

这里着重介绍了在数据闭环中扮演重要作用的“数据缓冲区”的设立理念和实现方式。通过设立数据缓冲区,可以实现系统解耦,让数据闭环具备良好的扩展性,让公司组织间职责更加分明,使数据环境更加安全等。

数据缓冲区中涉及的数据批量导出/导入技术,需要使用到各个RDMS系统的批量操作命令。另外在大数据平台中,需要使用hadoop shell和hive shell脚本来实现批量操作,对于Hbase,则提供了Java实现的bulk load批量导入方式。

ETL作业为数据闭环中定义数据流转方式的环节。为了实现ETL作业的自动化运行和监控,需要引入ETL作业规范:命名规范和日志规范。

作业调度则是保证ETL作业能够实现自动化的手段,监控和预警则进一步保证了ETL作业能够正常运行。

第3章将根据这两章提出的数据理念,通过实战的方式完成数据闭环中关键环节的构建。