您现在的位置是：首页 > 后端

当前栏目

最新出炉数据科学家最常使用的十大算法

算法数据最新十大科学家出炉使用

2023-09-11 14:20:03 时间

导读：本文来自于KDnuggets所做的十大算法调查，对于数据工程师常用的算法进行排名，并对其在2011-2016年间的变化进行介绍。

基于调查，KDnuggets总结出了数据科学家最常使用的十大算法，它们分别是：

1. Regression 回归算法

2. Clustering 聚类算法

3. Decision Trees/Rules 决策树

4. Visualization 可视化

5. k-Nearest Neighbor 邻近算法

6. PCA (Principal Component Analysis) 主成分分析算法

7. Statistics 统计算法

8. Random Forests 随机森林算法

9. Time series/Sequence 时间序列

10. Text Mining 文本挖掘

其中，受访者表示平均使用了8.1个算法，相比2011年类似的调查大幅提高了。

与2011年的类似调查对比我们发现最流行的算法还是回归算法、聚类算法、决策树和可视化。相对来说最大的增长是由 (pct2016 /pct2011 - 1) 测定的以下算法：

Boosting，从 2011 年的 23.5% 至 2016 年的 32.8％，同比增长 40％

文本挖掘，从 2011 年的 27.7% 至 2016 年的 35.9％，同比增长 30％

可视化，从 2011 年的 38.3% 至 2016 年的 48.7％，同比增长 27％

时间序列，从 2011 年的 29.6% 至 2016 年的 37.0%，同比增长 25％

异常/偏差检测，从 2011 年的 16.4% 至 2016 年的 19.5％，同比增长 19％

集成方法，从 2011 年的 28.3％至 2016 年的 33.6％，同比增长 19％

支持向量机，从 2011 年的 28.6% 至 2016 年的 33.6％，同比增长 18％

回归算法，从 2011 年的 57.9% 至 2016 年的 67.1％，同比增长 16％

另外，2016年最流行的新算法分别是：

K-近邻，46％

主成分分析，43％

随机森林算法，38％

优化，24％

神经网络 - 深度学习，19％

奇异值分解，16％

下降最多的分别是：

关联规则，从 2011 年的 28.6% 至 2016 年的 15.3％，同比下降 47％

增量模型，从 2011 年的 4.8% 至 2016 年的 3.1％，同比下降 36％

因素分析，从 2011 年的 18.6% 至 2016 年的 14.2％，同比下降 24％

生存分析，从 2011 年的 9.3% 至 2016 年的 7.9％，同比下降 15％

不同领域使用的算法比例

我们注意到几乎所有人都在使用监督学习算法。

政府和工业界数据科学家比学生或者学术研究院使用更多不同的算法，而且工业界数据科学家更倾向于使用元算法。

下面，我们继续通过雇员的类型来分析最流行的10个算法和深度学习。

为了让这些差异更容易观看，我们针对特定雇员类型相关的平均算法使用量设计了一个算法。

Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All) - 1.

我们注意到：

工业界数据科学家更倾向于使用回归算法、可视化、统计算法、随机森林算法以及时间序列

政府/非盈利组织更倾向于使用可视化、主成分分析算以及时间序列

学术界研究人员更倾向于使用主成分分析算法和深度学习

学生一般使用的算法较少，但是它们会做更多的文本挖掘以及深度学习

另外，参与投票的读者主要来自于

美国/加拿大, 40%

欧洲, 32%

亚洲, 18%

拉丁美洲, 5.0%

非洲/中东, 3.4%

澳大利亚/新西兰, 2.2%

在 2011 年的调查中，我们将产业/政府分在了同一组，将学术研究人员/学生分在了第二组，另外通过算法对于业界/政府的“亲切度”进行了计算：

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

------------------------------- - 1

N(Ind_Gov) / N(Aca_Stu)

亲切度为 0 的算法表示其在产业/政府和学术研究人员/学生之间的使用情况对等。IG亲切度越高表示该算法越被产业界普遍使用，反之越“学术”。

其中，最“ 产业”的算法是：

增量模型Uplift modeling，2.01

异常检测Anomaly Detection，1.61

生存分析Survival Analysis，1.39

因子分析Factor Analysis，0.83

时间序列Time series/Sequences，0.69

关联规则Association Rules，0.5

其中增量模型Uplift modeling又一次成了最“产业”的算法，但是令人惊讶的是其使用率确很低—只有3.1%，几乎是这次调查中使用率最低的算法。

最“ 学术”的算法是：

神经网络Neural networks - regular, -0.35

朴素贝叶斯Naive Bayes, -0.35

支持向量机SVM, -0.24

深度学习Deep Learning, -0.19

EM, -0.17

下图是所有算法以及它们在产业界/学术界的亲切度：

数据科学家最常使用的算法工业界 vs 学术界

2016数据科学家使用的算法调查汇总

汇总表格中各项含义分别是：

N：根据使用度排名

Algorithm：算法名称，

类型：S - 监督，U - 无监督，M - 元，Z - 其他，

%指代调查中使用这种算法的调查者比例

Change—变动（％2016 年/2011％ - 1），

Industry Affinity—产业亲切度（前文中提到）

ICLR 2018最佳论文重磅出炉！Adam新算法、球形CNN等受关注今天，ICLR官网公布了ICLR 2018的最佳论文，一共三篇。这些论文在被ICLR接收之后持续得到讨论，包括提出新的Adam变体算法，处理球面图像的问题的球形CNN，learning to learn框架的持续性适应问题等。本文带来详细解读。

猜你喜欢

向上全部选中的快捷键
Linux服务器上监控网络带宽的18个常用命令
为何优秀的首席数据官如此难寻?
Hack.Chat 在浏览器里快速建立简单、随用即丢线上聊天室，无须下载安装软体
PHP 将xml数据转成数组
微信小程序学习第3天——网络数据请求
jmeter+ant+jenkins的自动化接口测试
同声传译，Skype完胜99.9%地球人
Ubuntu 14.04 & ant: Unable to locate tools.jar. Expected to find it in /usr/lib/jvm/java-7-openjdk-i386/lib/tools.jar
修改linux的最大文件句柄数限制
力扣解法汇总2341. 数组能形成多少数对
漏洞复现----3、Apache Solr 远程命令执行漏洞（CVE-2017-12629）
Java虚拟机（JVM）体系结构概述及各种性能参数优化总结
flanneld启动报错Container runtime network not ready: NetworkReady=false reason:NetworkPluginNotReady message:docker: network plugin is not ready: cni config uninitialized
欧盟反垄断大棒再次挥向谷歌：AdSense太霸道
苹果审核不过出现"您的 App 包含 NSUserTrackingUsageDescription...."解决办法
Centos7 安装 zabbix 4.0
python中类继承问题中__init__()方法重写注意事项
C语言基础语法进阶练习题
Raspberry Pi 3 FAQ --- connect automatically to 'mirrors.zju.edu.cn' when downloading and how to accelerate download
重庆市梁平县“234”举措助推智慧城市建设
冒泡排序
BZOJ2988 : DIVISORS
vbs外部调用
面部识别是把双刃剑取长补短是要诀
《配置管理最佳实践》——1.9 建立使用模型

相关主题

排序算法汇总
随机森林算法
算法：复杂度
50.【算法图解】
Java数据与算法
二分查算法
算法-递归算法

zl程序教程

当前栏目

最新出炉数据科学家最常使用的十大算法

相关文章

当前栏目

最新出炉 数据科学家最常使用的十大算法

相关文章

最新出炉数据科学家最常使用的十大算法