众说纷纭,机器学习究竟是什么
所谓数据科学家,是指那些能够利用最合适的工具与方法完成自身工作的专业人士。最出色的数据科学家能够将自己完整的知识集与模式发现方案充分利用于统计分析工作当中。
我们应该如何对科学技术数据的积累总和进行查阅?通常来讲,这要用到所谓“高级分析”机制。这句话在表述上故意显得比较模糊,其核心在于将一切技术手段纳入其中——包括统计分析、数据挖掘、可预测模型、自然语言处理以及支持向量机等等。
在一般人的印象中,“数据挖掘”的涵盖范围很广、大部分相关工作似乎都能划归其下,包括对于隐私侵犯的关注以及应用程序监控等等。不过在我看来,这相当于所有能在空中飞翔的鸟类都称为“秃鹫”——明显并不准确。究其原因,数据挖掘的指向对象为结构化数据,这类方案通常会涉及到具体的技术机制,例如回归分析、决策树等等,而且一般不会被用于对非结构化数据进行内容分析。
与之类似“机器学习”也被越来越多地提及并成为一种包罗万象的概念。或者机器学习至少已经成为一种针对当前数据的便捷处理手段,科学家们用它来指代从新数据(大部分属于非结构化数据)中自动获取并发现知识与模式的尖端技术范畴。而人们对于机器学习定义的探寻似乎也延伸到了更为广泛且界线模糊的领土之上。
这是我在最近阅读了《了解机器学习:个人探索之路》一文后建立起来的印象。在这篇文章中,来自圣迭戈州立大学与True Bearing Analytics公司的Joseph R. Barr以作者的角度探讨了机器学习的发展历史以及他个人在学习这一课题过程中的感悟。他指出,“将机器学习、数据挖掘、可预测性分析以及高级分析或多或少视为同义词其实并无不妥。” 我不知道将机器学习与前面提到的其它技术相提并论是否具有实际意义。正如前面已经提到,机器学习主要用于非结构化数据,而数据挖掘则专门针对结构化数据集。此外,与数据挖掘类似、机器学习关心的主要是历史数据当中的多样化形式,相比之下预测性分析更侧重于寻找其中适用于未来新数据收集测试机制的可预测模式。然而机器学习、数据挖掘乃至可预测性分析的针对范围较窄,高级分析则是一项更为宽泛的概念、足以将前面几项全部容纳进来。
在我看来,机器学习一只脚立足于数据科学、另一方面则以计算机科学为基础。基于这样的理解,我认同Barr在文章中所言:“机器学习发展自多个彼此不一定存在交集的数学学科,其中最值得注意的子类包括数理统计、计算与算法、信息理论以及数学优化等……在过去,机器学习是与人工智能紧密结合在一起的……大多数与机器学习相关的议题主要关注凸包的理论可能性、组合、凸度与优化、统计、信息以及计算。对于这份名单,我会向其中添加额外的三个条目:启发法、经验与应用。”
这实在是一门相当艰深的学科,值得我们深入探索与了解。通过以上描述,我们可以看到机器学习拥有一条令人心生畏惧的学习曲线,大家需要在大学课堂以及实验室当中耗费多年才能窥探其门径。这实际上也是Barr这篇文章的核心所在:他本人就是一位机器学习教学兼数据科学专家,而他面临的难题在于如何为未来的数据科学家们设置一个正确的机器学习定义。
定义范围的变化表明这些挑战已经给机器学习本身带来影响与反映。在机器学习这一宏观概念之下,不同学科以创新方式不断交叉而又相互促进,而这将拓展每一位数据科学家的思维方式并决定他们在使用这一术语时为机器学习设立的概念定义。
原文发布时间为:2014-06-28
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
机器学习初识 即我们提供数据集,然后计算机根据一定的算法帮我们构建一个模型,相当于一个学习过程,之后输入新的数据,模型返回给我们一定的数据
【机器学习】文章7 NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
相关文章
- impala在centos机器安装的方法
- (《机器学习》完整版系列)第3章 线性模型——3.1 线性回归(线性模型对应于仿射函数)
- (《机器学习》完整版系列)第2章 模型评估与选择 ——2.2 如何选个好模型?召回率是什么?
- 以下哪些机器学习算法可以不对特征做归一化处理:
- Apache Spark机器学习.2.4 数据集重组
- 谷歌发布基于机器学习的Android APP安全检测系统:Google Play Protect
- HMS Core Insights第四期直播回顾 – 机器学习,推开AI应用的门
- 「压缩」会是机器学习的下一个杀手级应用吗?
- 机器学习从业人员到底做什么?
- 【机器学习】如何简单形象又有趣地讲解神经网络是什么?
- 推荐 | 掌握这12条经验,对理解机器学习至关重要!
- 《Arduino家居安全系统构建实战》——1.1 什么是机器学习
- 《机器学习与数据科学(基于R的统计学习方法)》——第1章 机器学习综述
- 《机器学习与数据科学(基于R的统计学习方法)》——2.13 从谷歌分析中读取数据
- Python机器学习零基础理解K-means聚类
- SwiftUI 机器学习基础之ML有什么用
- 机器学习——“防干扰训练”《全新算法助机器学习抵抗干扰》
- 【机器学习】:Xgboost/LightGBM使用与调参技巧
- 机器学习——常用核函数