您现在的位置是：首页 > 硬件

当前栏目

关于机器学习你必须了解的十个真相

机器学习关于了解必须十个真相

2023-09-27 14:23:54 时间

作为一个经常向非专业人士解释机器学习的人，我整理了以下十点内容作为对机器学习的一些解释说明。

机器学习意味着从数据中学习；而AI则是一个时髦的词。机器学习并不像天花乱坠的宣传那样：通过向适当的学习算法提供适当的训练数据，你可以解决无数的难题。把它称之为AI吧，如果这有助于销售你的AI系统的话。但你要知道，AI只是一个时髦的词，这只代表了人们对它的期望而已。机器学习主要涉及到数据和算法，但最主要的还是数据。机器学习算法特别是深度学习的进步，有很多令人兴奋的地方。但数据是使机器学习成为可能的关键因素。机器学习可以没有复杂的算法，但不能没有好的数据。除非你有大量的数据，否则你应该坚持使用简单的模型。机器学习根据数据中的模式来训练模型，探索由参数定义的可能模型的空间。如果参数空间太大，就会对训练数据过度拟合，并训练出一个不能使自己一般化的模型。如果要对此做详细解释的话，需要进行更多的数学计算，而你应该把这一点当作为一个准则，让你的模型尽可能得简单。机器学习的质量与训练所用数据的质量强相关。俗话说“你往计算机输入一堆垃圾，输出的一定也是一堆垃圾数据”，虽然这句话的出现早于机器学习，但这恰恰是机器学习存在的关键限制。机器学习只能发现训练数据中存在的模式。对于监督机器学习任务来说（例如分类），你需要一个健壮的、正确标记的、丰富的训练数据集。机器学习只有在训练数据具有代表性的前提下才会起作用。正如基金招股说明书警告的那样“过去的表现不能保证未来的结果”。机器学习也应该发一个类似的警告申明：它仅能基于与训练数据相同分布的数据才能工作。因此，需警惕训练数据和生产数据之间的偏差，并经常性地重复训练模型，这样才能保证其不会过时。机器学习大部分的工作是数据转换。在机器学习技术天花乱坠的宣传下，你可能会认为机器学习所做的主要是选择和调整算法。但现实却是平淡无奇的：你大部分的时间和精力都将花在数据清理和特征工程上，也就是将原始特征转换为能更好地代表数据信号的特征。深度学习是一场革命性的进步，但并不是灵丹妙药。由于机器学习在很多领域都得到了应用与发展，因此深度学习也被宣传得天花乱坠。此外，深度学习促使一些传统上通过特征工程进行的工作变得自动化，特别是对于图像和视频数据。但深度学习并不是灵丹妙药。没有现成的可以让你使用，你仍然需要投入大量的精力去清理和转换数据。机器学习系统很容易受到操作员错误的影响。向NRA道歉，“机器学习算法不会杀人，是人在杀人”。当机器学习系统出现故障时，很少是因为机器学习算法存在问题。更有可能的情况是人为的错误被引入了到训练数据中，从而产生偏差或其他的系统错误。我们应始终持怀疑的态度，并采用适用于软件工程学的方式来对待机器学习。机器学习可能会在无意中创造了一个自我实现的预言。在机器学习的许多应用中，你今天所做的决策会影响明天收集的训练数据。一旦机器学习系统将偏差融入到模型中，它可以会继续生成偏差增强了的新训练数据。而且，一些偏差可能会毁掉人们的生活。请负责任一点：不要创造自我实现的预言。 AI不会自我觉醒、造反并毁灭人性。相当多的人似乎是从科幻电影中得到有关人造智能的概念的。我们应该从科幻小说中得到启发，但并不能这么傻，把小说误认为是现实。从有意识的邪恶人类到无意识的有偏差的机器学习模型，有太多的现实和危险需要担心。所以你可以不用担心SkyNet和“superintelligence”（译者注：SkyNet和superintelligence分别是科幻电影和科幻小说）。

机器学习涉及到的内容远远超过我上面提到的十点说明。希望这些介绍性的内容对非专业人士有用。

文章原标题《10 Things Everyone Should Know About Machine Learning》，作者：Daniel Tunkelang，译者：夏天，审校：主题曲。

文章为简译，更为详细的内容，请查看原文

零售业中的机器学习：要点和十个关键应用零售业中的机器学习依赖于自我改进的计算机算法，这些算法用于处理数据，发现变量之间的重复模式和异常，并自主学习这种关系如何影响或决定行业的趋势、现象和业务场景。
做了 5 年机器学习研究，我发现了这 7 个真相在Mindsdb从事 3 年自动机器学习工作后，我辞职了，至少我不会在短时间内从事任何与机器学习相关的职业工作。掐指一算，我已经做了 5 年机器学习研究，但直到今天，我才终于搞清楚了很多自己之前不知道的事物，甚至我还可能觉察到一些别人不知道的东西。
当博弈论遇上机器学习：一文读懂相关理论博弈论和机器学习能擦出怎样的火花？本文作者王子嘉通过回顾总结近年来博弈论和机器学习领域的交叉研究工作，为读者展示了这一领域最新的研究图景。
破解机器学习的误区——常见机器学习神话究竟从何而来？ Forrester Research最近发布了一份名为“ 粉碎机器学习的七个神话”的报告。在其中，作者警告说：“不幸的是，一些对机器学习项目做出重要决策的企业领导者，普遍存在机器学习的误解。”
如何用机器学习方法，提升另一半的满意指数？今天我们来探讨一个严肃又甜蜜的重要问题，一个你可能正在关注、或者终要关注的人生课题：如何用机器学习方法，为你生命里的另一半，挑选最适宜的母婴产品，提升幸福满意指数。
【深度学习再突破】让计算机一眼认出“猫”：哈佛提出新高维数据分析法目前，还没有人能够真正理解深度网络在目标分类任务方面的运行方式和原理。主要原因是对深度网络在分类任务中所做的“工作”还没有一个很好的衡量标准，一篇最近发表的关于“通用感知流形”理论的论文试图解决这个问题。

猜你喜欢

写代码如何合理使用和优化我们的机器资源（CPU、内存、网络、磁盘）
iOS 音乐播放器之锁屏效果+歌词解析
使用Lucy-Richardson算法的迭代非线性复原
8 -- 深入使用Spring -- 3...2 ResouceLoader 接口和 ResourceLoaderAware 接口
Linux基础：systemctl和journalctl常用命令
用Python从零开始实现K近邻算法
【性能测试】针对部分接口进行压力测试
戴志康访谈
企业微信将与微信企业号相互打通，合并？帮企业微信刷存在感罢了！
《Android 应用测试指南》——第2章，第2.5节创建一个测试用例
2021-2022学年英语周报七年级第29期答案及试题
第21周三
2021吉林高考(JLGK2021)游记
36家健康类公益组织联名举报百度
在单机条件下，MPI4PY与纯Python多进程代码来比较是否有性能优势？？？
闪存价格再刷新低！戴尔EMC全闪阵列双箭齐发背后
[LeetCode] 11. Container With Most Water 装最多水的容器
Storm入门之第三章拓扑

相关主题

机器学习32问
机器学习-Kmeans
机器学习初窥
[机器学习] 集成学习
机器学习之深度学习

zl程序教程

当前栏目

关于机器学习你必须了解的十个真相

相关文章