您现在的位置是：首页 > 后端

当前栏目

KDnuggets调查|数据科学家最常用的10种算法

算法数据常用 10 科学家调查

2023-09-11 14:16:09 时间

最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法，在大多数学术和产业界，都有惊人发现哦！

根据Gregory Piatetsky, KDnuggets，最新的调查问题是：在最近的12个月中，你在实际数据科学相关应用中用到了那些模型/算法？

于是就有了以下基于844份答卷的结果。

◆ ◆ ◆

排名前十的算法和它们在投票者中所占比例

0?wx_fmt=png

图1：数据科学家最常用的10大算法，所有算法见文末表格

每个受访者平均用到了8.1种算法，这相比于 2011 的相似调查显示的结果有了巨大的增长。

相比2011年对数据分析算法的调查，我们注意到最常用的方法仍然是回归，聚类，决策树/规则以及可视化。比例增幅最大的是（增幅=%2016/%2011 -1）：

时间序列/序列分析（Time series/Sequence analysis），提升了25%。从29.6%提升到37.0%

Uplift modeling,下降了36%，从4.8% 降为3.1%(出人意料的低，因为有很多相关文献发表)

下面的表格显示了不同的算法类型的使用场所：监督算法，无监督算法，元算法和其它算法。应用类型未知（NA，4.5%）或者其它职业类型（3%）的不包括在内。

表1：不同职业类型的算法使用

0?wx_fmt=png

我们注意到，几乎所有的人都在使用监督学习算法。政府和产业界的数据科学家们使用的算法类型比学生和科学界要多。产业数据科学家们更倾向于使用元算法。

◆ ◆ ◆

不同职业类型最常用的10大算法+深度学习情况

接下来，我们分析了不同职业类型最常用的10大算法+深度学习情况

表2: 不同职业类型的10大算法+深度学习

0?wx_fmt=png

为了更清楚地展示这些差异，我们用一个公式来计算不同职业类型的算法使用率偏倚：

偏倚=某种职业类型的算法使用率/所有职业类型的算法使用率-1

0?wx_fmt=png

图2：不同场所的算法使用率偏倚

我们注意到，产业数据科学家们更倾向于用回归，可视化，统计，随机森林和时间序列。政府/非盈利组织则更倾向于使用可视化，主成分分析和时间序列。学术界的研究人员们更多的用到主成分分析和深度学习。学生们普遍使用的算法较少，但多用到文本挖掘和深度学习。

接下来，我们看看某一具体地域的参与度，表示整体的KDnuggets用户。

参与调查人员的地区分布：

在2011年的调查中，我们把产业和政府两个行业的被调查者合为一组，把学术研究者和学生合为一组，然后计算行业政府组的算法使用亲切度：

（行业政府组的算法使用率/学术学生组的算法使用率）/（行业政府组的人数/学术学生组的人数）-1

因此，亲切度为0的算法表示它在产业/政府组和学术学生组使用率相同。越高IG亲切度说明该算法越偏向于产业，结果越小则算法越偏向于学术。

最偏向于“产业算法”是：

尽管uplift modeling再次成为最偏向于“行业算法”，令人吃惊的却是它使用率极低，只有3.1%，是整个调查中比例最低的。

最偏向于“学术算法”是：

0?wx_fmt=png

图3：KDnuggets调研：数据科学家使用最多的算法：产业与学术领域对比

下表是所有算法调研结果的细节，分别是2016年受访人群使用比例，2011年使用比例，变化（2016年比例/2011年比例-1）以及上文提及的产业亲切度。

表3：KDnuggets2016调研：数据科学家使用的算法

下方的表格是所有算法的调研结果细节，不同列依次代表的是：

表4：KDnuggets 2016 调研：数据科学家使用的算法 0?wx_fmt=jpeg

原文发布时间为：2016-09-18

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

将数组a中数据元素实现就地逆置的算法给出将整型数组a中数据元素实现就地逆置的算法。所谓就地逆置，就是利用数组a原有空间来存放数组a中逆序排放后的各个数据元素。

猜你喜欢

[React Testing] Test Drive Mocking react-router’s Redirect Component on a Form Submission
wsl for pycharm vscode
Vemto --Laravel Studio 和代码生成器
linux驱动开发--中断：按键中断
setVisibility
[FAQ] JS 实现暂停(睡眠) Sleep 与倒计时？
MATLAB APP 设计实践（一）UART通信（下篇）
java实现第三届蓝桥杯方块填数
selenium python 编码格式页面元素显式、隐式等待鼠标悬浮
适于初学者的免费虚拟主机和云服务器
如何在工作中获得成长？
Lumen与laravel的区别
SAP UI5 应用 manifest.json 文件里 Routes 数组元素的相对顺序，不可忽视的试读版
防止网页被嵌入框架的代码（续）
go语言笔记——多值函数，本质上和nodejs的回调很像，不过nodejs是回调的第一个参数是err，而golang里是第二个！
项目管理和运营管理

相关主题

zl程序教程

当前栏目

KDnuggets调查|数据科学家最常用的10种算法

相关文章