机器学习操作不适用于云计算运维
2023-03-07 09:53:00 时间
为云计算服务团队提供机器学习功能的系统不仅是一个错误,而且也是危险的。
一家公司的云平台在一个周末发生故障,该公司云计算运营团队试图研究和探讨发生了什么问题。似乎有几个系统与一个先进的新的库存管理系统相关,这个系统启用了机器学习,但出现了问题。对其进行检测之后的结论如下:
- 将原始数据从运营数据库移动到训练数据库的批处理以及自动恢复过程失败。而在周末工作的运维团队成员试图重新提交,但并不是一次性全部提交,而是进行了四次更新,导致训练数据库处于不稳定状态。
- 这导致机器学习系统中的知识模型使用错误的数据进行训练,并要求删除知识库中的新信息,并重建模型。
- 此外,一些外部数据馈送(例如定价和税务数据)同时更新到训练数据库。尽管这些工作正常,但考虑到运营数据不是很好,也需要退出知识库。
- 该系统两天内无法使用,考虑到生产力下降、客户不满以及公关问题,使该公司损失了400万美元。
随着企业越来越多地使用“物美价廉”的基于云计算的机器学习系统,人们发现利用机器学习的系统操作起来非常复杂。企业运营小组希望降低困难程度和复杂性,但发现面临训练不足、人手不足和资金不足的问题。
云计算运营团队可以通过相当容易的转换来处理基于云计算的数据库、存储、计算。考虑到基于云计算的系统与传统系统类似,大多数情况都是如此。
但是,运营团队在很大程度上还没有采用基于机器学习的系统。这些系统具有专门的用途,以及必须以某种方式监视和管理的专用系统,如数据库和知识引擎。这是当前运营团队失败的地方。
这种情况很容易理解,但大多数企业都不会喜欢,因为它意味着花费更多资金用于机器学习的云计算运营,可能导致放弃。机器学习系统是一种技术链,如果小心使用,它们非常有效。如果处理不当,可能无法检测到故障,将会很危险。如果系统使用由此产生的错误知识,那么最终可能会出现严重的问题,而在造成很大的损害之前,这些问题可能无法被发现。似乎其风险大于回报。
相关文章
- 数据孤岛是业务效率的无声杀手
- 2023展望:新的一年将给大数据分析领域带来什么?
- 阿里云ADB基于Hudi构建Lakehouse的实践
- 大数据在医疗保健领域的使用案例
- 微软增加说明:KB5021751 更新扫描已经 / 即将过时 Office 过程中不会触碰用户隐私
- 2022 Gartner全球云数据库管理系统魔力象限发布 腾讯云数据库入选
- 场景化、重实操,分享一个实时数仓实践案例
- Arctic的湖仓一体践行之路
- 分布式计算MapReduce究竟是怎么一回事?
- 淘系数据模型治理优秀实践
- 大数据分析对医疗保健的影响
- 当我们说大数据Hadoop,究竟在说什么?
- 2022年及以后大数据的五个发展趋势
- 网易严选离线数仓治理实践
- 2023 年数据治理趋势
- 一份“靠谱”的年度经营计划,你学会了吗?
- 漫谈对大数据的思考
- 测试一下,读懂数据的能力,你有吗?
- 用艺术的眼光探索数据之美
- 聊聊数据分析成果如何落地