AI之AutoML:autosklearn/Auto-Sklearn(基于scikit-learn库的自动化的机器学习工具)的简介、安装、使用方法之详细攻略
AI之AutoML:autosklearn/Auto-Sklearn(基于scikit-learn库的自动化的机器学习工具)的简介、安装、使用方法之详细攻略
目录
autosklearn/Auto-Sklearn(基于scikit-learn库的自动化的机器学习工具)的概述
autosklearn/Auto-Sklearn的简介
autosklearn/Auto-Sklearn(基于scikit-learn库的自动化的机器学习工具)的概述
简介 | Auto-Sklearn,在2015年由德国图宾根大学的研究人员提出的,最初的版本于2016年发布。auto-sklearn基于scikit-learn库进行开发,支持多种机器学习任务,包括分类、回归、时间序列等。 |
核心技术点 | Auto-Sklearn使用了贝叶斯优化的方法进行超参数优化,可以在较短的时间内找到最优的超参数组合,从而得到更好的模型性能。 |
功能 | Auto-Sklearn是一款基于Python的自动机器学习工具,可以自动进行机器学习的各个步骤,包括特征选择、特征预处理、算法选择和超参数优化等。 自动特征选择与工程:可以自动选择最优特征子集,并进行归一化、缺失值处理等特征工程。 自动模型选择:可以自动选择最优的机器学习算法来解决问题,支持的算法包括SVM、KNN、随机森林等。 自动超参数优化:可以自动搜索机器学习模型的最优超参数,获得最高性能的模型配置。 |
特点 | auto-sklearn的优势在于它的易用性和灵活性。用户只需要提供数据集和一些基本的配置,就可以自动进行模型构建和优化。 auto-sklearn可以自动选择和配置算法和超参数,从而让用户省去了手动调参的过程。 auto-sklearn还支持并行化处理,可以在多个CPU或GPU上运行,进一步加速模型训练和优化。 |
优缺点 | 自动化:auto-sklearn能够自动化地完成机器学习的各个环节,从而让用户省去手动调参和特征工程等繁琐的工作。 灵活性:auto-sklearn提供了多种配置选项,用户可以根据自己的需求进行自定义配置。 性能好:auto-sklearn使用贝叶斯优化技术进行超参数优化,能够在短时间内找到最优的超参数组合,从而得到更好的模型性能。 |
处理大数据集时较慢:auto-sklearn的处理速度受限于计算资源,处理大数据集时需要较长时间。 可解释性较差:由于auto-sklearn是自动化的,生成的模型可解释性较差。 | |
应用案例 | Kaggle竞赛:auto-sklearn在多个Kaggle竞赛中表现出色,包括房价预测、分类、回归等多个任务。 自动化机器学习平台:auto-sklearn可以作为自动化机器学习平台的核心组件,帮助用户快速构建和部署机器学习模型。 数据科学教育:auto-sklearn可以作为教学工具,帮助学生快速入门机器学习,并加深对机器学习原理的理解。 |
autosklearn/Auto-Sklearn的安装
pip install auto-sklearn
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple auto-sklearn
conda install -c conda-forge auto-sklearn
系统安装要求¶
auto-sklearn 具有以下系统要求:
-
Linux 操作系统(例如 Ubuntu)(在此处获取 Linux)
-
Python (>=3.7)(在此处获取 Python),
-
C++ 编译器(支持 C++11)(在此处获取 GCC)。
如果您尝试在没有提供 pyrfr 包的 wheel 文件的系统上安装 Auto-sklearn(请参阅此处了解可用的 wheels),您还需要:
-
SWIG(在此处获取 SWIG)。
有关缺少 Microsoft Windows 和 macOS 支持的说明,请查看Windows/macOS 兼容性部分。
注意:auto-sklearn 当前不支持 Windows系统,因为auto-sklearn严重依赖 Python 模块resource。是 Python 的Unix 特定服务resource 的一部分 ,在 Windows 机器上不可用。因此,无法 在 Windows 机器上运行auto-sklearn 。
autosklearn/Auto-Sklearn的使用方法
1、基础案例
import sklearn.datasets
import autosklearn.classification
# 加载Titanic数据集
X, y = sklearn.datasets.load_breast_cancer(return_X_y=True)
# 使用Auto-Sklearn训练模型
model = autosklearn.classification.AutoSklearnClassifier()
model.fit(X, y)
# 输出模型评估结果
print(model.sprint_statistics())
相关文章
- BAT机器学习面试1000题系列(详细版)
- 模型代码论文一键达!机器之心SOTA!模型联合清华AMiner团队升级「速读论文」新功能
- 基于现代R语言【Tidyverse、Tidymodel】的机器学习方法与案例分析
- 自学成才的机器学习工程师十诫
- 10个机器学习中常用的距离度量方法
- 人工智能和机器学习的区别
- 吴恩达机器学习IV
- 数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}
- 多视图机器学习的宏观发展趋势
- 机器学习+代谢组学识别新化合物|Enveda完成6800万美元B轮股权和债务融资
- 机器学习中的特征选择(变量筛选)方法简介
- CADD、人工智能和机器学习在药物发现中的应用:方法概述
- JCIM|激增的机器学习方法推动QSAR研究的再发展
- 机器学习算法(八):基于BP神经网络的乳腺癌的分类预测
- 不同于NLP,数据驱动方法与机器学习无法攻克NLU,原因有三点
- 分布式机器学习中的拜占庭问题
- 利用机器学习研究脑卒中早期皮质运动系统的结构-功能关系
- 【机器学习】KNNImputer:一种估算缺失值的可靠方法
- 简单的 SQL 脚本就能替代 AI 和机器学习!详解程序员
- 占用标题:深入了解Linux机器内存占用(查看linux机器内存)
- 双足机器人Cassie使用机器学习完成5公里慢跑
- 机器学习是如何巧妙揭示大脑工作机制的
- 机器学习备忘录:你不可不知的 5 件事
- 洪小文撰文: 人工智能正在与机器学习、大数据构成一个足以改变未来的技术“铁三角”
- IBM 用机器学习寻找外星人,不用再望穿银河秋水
- [图]科学家研发新机器学习方法 更轻松洞察海量卫星地图数据
- 远程Linux机器上执行命令的新方法(远程执行命令linux)
- 轻松搭建Redis主从机架构(redis配置主从机器)
- 阿里发布的机器学习平台PAI2.0,和腾讯的DX-I区别在哪? | 云栖2017深圳
- tomcat6.0.20在一个机器上安装多个服务的方法