大数据与机器学习:实践方法与行业案例.2.6 本章小结
2023-03-09 22:21:41 时间
2.6 本章小结
本章围绕数据体系提出了数据闭环的概念,对数据闭环的特征进行了描述,并且进一步介绍了构建数据闭环所涉及的方法和技术。
这里着重介绍了在数据闭环中扮演重要作用的“数据缓冲区”的设立理念和实现方式。通过设立数据缓冲区,可以实现系统解耦,让数据闭环具备良好的扩展性,让公司组织间职责更加分明,使数据环境更加安全等。
数据缓冲区中涉及的数据批量导出/导入技术,需要使用到各个RDMS系统的批量操作命令。另外在大数据平台中,需要使用hadoop shell和hive shell脚本来实现批量操作,对于Hbase,则提供了Java实现的bulk load批量导入方式。
ETL作业为数据闭环中定义数据流转方式的环节。为了实现ETL作业的自动化运行和监控,需要引入ETL作业规范:命名规范和日志规范。
作业调度则是保证ETL作业能够实现自动化的手段,监控和预警则进一步保证了ETL作业能够正常运行。
第3章将根据这两章提出的数据理念,通过实战的方式完成数据闭环中关键环节的构建。
相关文章
- 发现 Linux SpaceFM 文件管理器的威力
- 夯实数据智能底座 共筑数字经济发展“新基石”
- 五分钟教你使用console.log发布公司的招聘信息
- 微软发布 Windows 11 Beta 预览版 Build 22621.1250 和 22623.1250 (KB5023008)
- Windows 11 学院:在 Windows 11 Build 25290 上如何为文件管理器启用标签页拖拽支持
- 微软Windows 11 Dev 预览版 Build 25290 发布:带来新的开始菜单提醒角标
- 微软正用全屏通知提醒 Windows 10 用户免费升级 Windows 11,要点击 5 次才能退出
- Linux Mint 21.2 将于 6 月发布:改进登录屏幕,优化 Pix 图像管理程序等等
- 字节面试也会问SPI机制?
- 微软正式停售 Windows 10 产品密钥 / 许可证:继续提供 ISO 镜像下载,推荐用户升级 Windows 11
- 用复古电脑程序 Toy CPU 学习低级编程
- Windows 11 新功能泄露:现代音量合成器、实验工具和新的文件管理器
- 微软 Windows 11 文件资源管理器全新设计曝光:UI 迎来大修,整合 Microsoft 365
- 对比Pandas,学习PySpark大数据处理
- 微软宣布为Windows 11 21H2设备开启自动更新到22H2版本
- 互联网都在说降本增效,小红书技术团队是怎么做的?
- 微软将继续提供 Windows 10 ISO 镜像下载,即将停售产品密钥 / 许可证
- 微软宣布为Windows 11 21H2 设备开启自动更新到 22H2 版本
- 面试突击:Properties和Yml有什么区别?
- 微软 Windows 11 Beta 预览版 22621.1245 和 22623.1245 (KB5022358) 发布