KDnuggets调查|数据科学家最常用的10种算法
根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的12个月中,你在实际数据科学相关应用中用到了那些模型/算法?
于是就有了以下基于844份答卷的结果。
排名前十的算法和它们在投票者中所占比例
图1:数据科学家最常用的10大算法,所有算法见文末表格
每个受访者平均用到了8.1种算法,这相比于 2011 的相似调查显示的结果有了巨大的增长。
相比2011年对数据分析算法的调查,我们注意到最常用的方法仍然是回归,聚类,决策树/规则以及可视化。比例增幅最大的是(增幅=%2016/%2011 -1):
时间序列/序列分析(Time series/Sequence analysis),提升了25%。从29.6%提升到37.0%
Uplift modeling,下降了36%,从4.8% 降为3.1%(出人意料的低,因为有很多相关文献发表)
下面的表格显示了不同的算法类型的使用场所:监督算法,无监督算法,元算法和其它算法。应用类型未知(NA,4.5%)或者其它职业类型(3%)的不包括在内。
表1:不同职业类型的算法使用
我们注意到,几乎所有的人都在使用监督学习算法。政府和产业界的数据科学家们使用的算法类型比学生和科学界要多。产业数据科学家们更倾向于使用元算法。
不同职业类型最常用的10大算法+深度学习情况
接下来,我们分析了不同职业类型最常用的10大算法+深度学习情况
表2: 不同职业类型的10大算法+深度学习
为了更清楚地展示这些差异,我们用一个公式来计算不同职业类型的算法使用率偏倚:
偏倚=某种职业类型的算法使用率/所有职业类型的算法使用率-1
图2:不同场所的算法使用率偏倚
我们注意到,产业数据科学家们更倾向于用回归,可视化,统计,随机森林和时间序列。政府/非盈利组织则更倾向于使用可视化,主成分分析和时间序列。学术界的研究人员们更多的用到主成分分析和深度学习。学生们普遍使用的算法较少,但多用到文本挖掘和深度学习。
接下来,我们看看某一具体地域的参与度,表示整体的KDnuggets用户。
参与调查人员的地区分布:
在2011年的调查中,我们把产业和政府两个行业的被调查者合为一组,把学术研究者和学生合为一组,然后计算行业政府组的算法使用亲切度:
(行业政府组的算法使用率/学术学生组的算法使用率)/(行业政府组的人数/学术学生组的人数)-1
因此,亲切度为0的算法表示它在产业/政府组和学术学生组使用率相同。越高IG亲切度说明该算法越偏向于产业,结果越小则算法越偏向于学术。
最偏向于“产业算法”是:
尽管uplift modeling再次成为最偏向于“行业算法”,令人吃惊的却是它使用率极低,只有3.1%,是整个调查中比例最低的。
最偏向于“学术算法”是:
图3:KDnuggets调研:数据科学家使用最多的算法:产业与学术领域对比
下表是所有算法调研结果的细节,分别是2016年受访人群使用比例,2011年使用比例,变化(2016年比例/2011年比例-1)以及上文提及的产业亲切度。
表3:KDnuggets2016调研:数据科学家使用的算法
下方的表格是所有算法的调研结果细节,不同列依次代表的是:
表4:KDnuggets 2016 调研:数据科学家使用的算法
原文发布时间为:2016-09-18
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
将数组a中数据元素实现就地逆置的算法 给出将整型数组a中数据元素实现就地逆置的算法。所谓就地逆置,就是利用数组a原有空间来存放数组a中逆序排放后的各个数据元素。
相关文章
- C#数据Encrypt加密Encrypt解密的算法使用
- Java实现蓝桥杯VIP算法训练 石子游戏
- Java实现 基础算法 求100以内的质数
- Java实现 蓝桥杯VIP 算法提高 洗牌
- 数据挖掘中分类算法小结_数据分析师
- 浅谈压缩感知(二十八):压缩感知重构算法之广义正交匹配追踪(gOMP)
- 重新整理数据结构与算法——数组模拟队列和环形队列[三]
- paip.检测信用卡账单数据的正确性算法
- paip.检测信用卡账单数据的正确性算法
- Math/ML:时间序列数据集/时间序列预测任务的简介、常用算法及其工具、案例应用之详细攻略
- Algorithm:C++语言实现之链表相关算法(单链公共结点问题、一般LCA、括号匹配、最长括号匹配、逆波兰表达式Reverse Polish Notation、直方图矩形面积、收集雨水问题)
- Matlab之Kalman:用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法
- ML之CatBoost:金融风控之通过数据预处理(中位数填充/校验同分布/文本型日期拆解/平均数编码-标签编码)利用CatBoost算法+模型可解释性(Shap/LIME)预测用户的车险是否为欺诈行为
- EL之Bagging(DTR):利用DIY数据集(预留30%数据+两种树深)训练Bagging算法(DTR)
- DL之NN/CNN:NN算法进阶优化(本地数据集50000张训练集图片),六种不同优化算法实现手写数字图片识别逐步提高99.6%准确率
- DL之ResNeXt:ResNeXt算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
- 目标检测算法——图像去噪开源数据集汇总(速速收藏)
- 目标检测算法——图像去雾开源数据集汇总(速速收藏)
- 目标检测算法——车辆牌照识别数据集汇总(附下载链接)
- 2020电赛E题--非线性失真器程序设计--01--算法仿真与STM32FFT数据验证(附工程源码+gitee链接)
- 拒绝跟风,谈谈几种算法岗的区别和体验