Apache Spark机器学习.1.3 机器学习算法
2023-03-14 10:23:43 时间
1.3 机器学习算法
本节将回顾机器学习所需的算法,介绍机器学习库,包括Spark的MLlib和IBM的SystemML,然后讨论它们与Spark的集成。
阅读本节之后,读者将会熟悉包括Spark MLlib在内的各种机器学习库,知道如何利用它们进行机器学习。
为完成机器学习项目,数据科学家经常使用机器学习工具(如R语言或MATLAB)上的一些成熟分类或回归算法开发和评估预测模型。要完成一个机器学习项目,除了数据集和计算平台,这些机器学习算法库也是十分必要的。
例如,R语言提供了专业人员使用的各类算法,所以得到了广泛流行和深入使用。R语言有1000多个程序包,数据科学家可能不需要全部的程序包,但需要几个关键的程序包:
数据加载:使用RODBC或RMySQL
数据操作:使用stringr或lubridate
数据可视化:使用ggplot2或leaflet
数据建模:使用Random Forest或survival
报告结果:使用shiny或markdown
根据近期ComputerWorld的调查,下载最多的R语言程序包如下:
程序包名称 下载次数
程序包名称 下载次数
Rcpp 162778
ggplot2 146008
plyr 123889
stringr 120387
colorspace 118798
digest 113899
reshape2 109869
RColorBrewer 100623
scales 92448
manipulate 88664
更多的信息,请访问:http://www.computerworld.com/article/2920117/business- intelligence/most-downloaded-r-packages-last-month.html。
相关文章
- STC8H开发(八): NRF24L01无线传输音频(对讲机原型)
- 沁恒CH32F103C8T6(三): PlatformIO DAPLink和WCHLink下载配置
- 沁恒CH32F103C8T6(二): Linux PlatformIO环境配置, 示例运行和烧录
- 沁恒CH32F103C8T6(一): Keil5环境配置,示例运行和烧录
- SDCC 的 MCS-51 汇编基础概念和传参方式
- STC8H开发(七): I2C驱动MPU6050三轴加速度+三轴角速度检测模块
- Spring专题2: DI,IOC 控制反转和依赖注入
- Spring专题1: 静态代理和动态代理
- STC8H开发(五): SPI驱动nRF24L01无线模块
- 联盛德 HLK-W806 (十三): 运行FatFs读写FAT和exFat格式的SD卡/TF卡
- STC8H开发(四): FwLib_STC8 封装库的介绍和注意事项
- STC8H开发(三): 基于FwLib_STC8的模数转换ADC介绍和演示用例说明
- STC8H开发(二): 在Linux VSCode中配置和使用FwLib_STC8封装库(图文详解)
- STC8H开发(一): 在Keil5中配置和使用FwLib_STC8封装库(图文详解)
- STC8A,STC8G,STC8H系列的IRC内部振荡源频率调节
- STC8PROG - Linux下的 STC8A, STC8F, STC8G, STC8H 烧录工具
- 联盛德 HLK-W806 (十一): 软件SPI和硬件SPI驱动ST7567液晶LCD
- 老王电子的拆机 ESP32-SOLO-1 填坑报告
- 联盛德 HLK-W806 (十): 在 CDK IDE开发环境中使用WM-SDK-W806
- Thinkpad笔记本指点杆(小红点)自动漂移的问题