您现在的位置是：首页 > 硬件

当前栏目

机器学习：基本算法分类体系结构和文章汇总

机器算法学习基本汇总分类文章体系结构

2023-09-27 14:24:15 时间

机器学习

Machine Learning
特征工程

TensorFlow
神经网络
图像识别
自然语言处理

机器学习定义

从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测

算法是核心，数据和计算是基础
掌握算法思想，使用库或框架解决问题

数据类型
离散型数据计数数据，数据都是整数，不能再细分
连续型数据某个范围内取任意一数，非整数

机器学习算法分类

监督学习 特征值 + 目标值
    -分类 目标值离散型数据
        -k-近邻算法
        -贝叶斯分类
        -决策树与随机森林
        -逻辑回归
        -神经网络
    -回归 目标值连续型数据
        -线性回归
        -岭回归
    -标注
        -隐马尔科夫模型（不要求）

无监督学习 特征值
    聚类 K-means

分类是监督学习的一个核心问题，最基础的是二分类问题

机器学习的开发流程

1、根据原始数据明确问题种类
2、数据基本处理，pd（缺失值，合并表）
3、特征工程
4、找到合适的算法进行预测（分类，回归），参数调优
模型：算法 + 数据
5、模型评估，判断效果
6、上线使用，以api形式提供

特征工程3大知识点
-特征抽取
-特征预处理
-特征降维

转换器与预估器

转换器transformer

fit_transform() 输入数据直接转换
fit() 输入数据，但不做事情，会用这个数据计算平均值等数据
transform() 进行数据转换
fit_transform = fit + transform

估计器estimator

sklearn机器学习算法实现

分类估计器
    -sklearn.neighbors k-近邻算法
    -sklearn.naive_bayes 贝叶斯
    -sklearn.linear_model.LogisticRegression 逻辑回归
    -sklearn.tree 决策树与随机森林
回归估计器
    -sklearn.linear_model.LinearRegression 线性回归
    -sklearn.linear_model.Ridge 岭回归

基本使用流程
fit(X_train, y_train)
y_predict = predict(X_test)
score(X_test, y_test)

API
sklearn.metrics.classification_report

知识结构

数据集划分
    -训练集和测试集 
    -train_test_split
转换器和估计器
    -转换器
        -实例化
        -fit_transform
        -fit
        -transform
    -估计器
        -实现了一类算法的API
        -流程
            -fit训练数据
            -predict预测测试集的结果
            -score得出准确率
分类算法
    -目标值是离散型
    -K-近邻
        -距离公式
        -优点
            -理解简单，易于实现
        -缺点
            -K值取值
            -性能问题，不太合适用在大量的数据集
        -超参数
        -数据的处理：标准化（必须）
    -朴素贝叶斯
        -条件独立，才能叫朴素贝叶斯
        -概率公式 条件概率和联合概率
        -贝叶斯公式
        -优点
            -主要在文本分类上应用
            -准确率比较高
            -理论基础：概率
        -缺点
            -条件独立
            -历史数据的准确性影响较大
        -数据处理：文本的特征抽取
    -决策树
        -信息论
            -信息熵
            -信息增益
            -信息熵的大小变化是和不确定性相关
        -分类依据
            -信息增益（掌握）
            -信息增益比
            -基尼系数（scikitlearn默认）
        -优点
            -准确率高
            -适用于各种数据
            -可解释性
        -缺点
            -容易过拟合，树的建立太深
    -随机森林
        -一种集成学习方法，多个同样的分类器组成
        -多个决策树组成
        -建立过程
        -优点
            -准确率高
            -不会过拟合
            -对大数据集适用
        -超参数，树的深度，多少棵树
分类算法的评估
    -准确率
    -精确率和召回率
        -混淆矩阵
        -每个类别都会有
    -模型调参数
        -交叉验证 为了让数据都能够进行验证和训练
            -训练数据（训练+验证）
            -K折交叉验证
        -网格搜索 
            -每个参数都会查看效果，选出效果好的参数
            -参数的组合(1, 2)

文章汇总

机器学习：特征工程字典特征和文本特征抽取
https://blog.csdn.net/mouday/article/details/86325387

机器学习：数据特征预处理归一化和标准化
https://blog.csdn.net/mouday/article/details/86378595

机器学习：数据特征预处理缺失值处理
https://blog.csdn.net/mouday/article/details/86430553

机器学习：数据降维特征选择和主成分分析PCA
https://blog.csdn.net/mouday/article/details/86437866

机器学习：sklearn数据集简介
https://blog.csdn.net/mouday/article/details/86441782

机器学习：K-近邻算法对鸢尾花数据进行分类预测
https://blog.csdn.net/mouday/article/details/86501149

机器学习：朴素贝叶斯算法对新闻分类
https://blog.csdn.net/mouday/article/details/86516935

机器学习：分类模型的评估精确率Presicion和召回率Recall
https://blog.csdn.net/mouday/article/details/86562391

机器学习：模型选择与调优交叉验证和网格搜索
https://blog.csdn.net/mouday/article/details/86562457

机器学习：信息熵决策树预测泰坦尼克数据
https://blog.csdn.net/mouday/article/details/86565057

机器学习：随机森林预测泰坦尼克数据
https://blog.csdn.net/mouday/article/details/86567939

机器学习：线性回归基础知识
https://blog.csdn.net/mouday/article/details/86619285

机器学习：欠拟合过拟合岭回归预测波士顿房价
https://blog.csdn.net/mouday/article/details/86652862

机器学习：sklearn训练结果的保存和加载
https://blog.csdn.net/mouday/article/details/86652953

机器学习：逻辑回归预测癌症数据
https://blog.csdn.net/mouday/article/details/86653227

机器学习： k-means聚类对数据进行预分类
https://blog.csdn.net/mouday/article/details/86662154

猜你喜欢

动态修改控件的间距或者大小
浏览器原理 37 # 任务调度：有了setTimeOut，为什么还要使用 requestAnimationFrame？
Python Pandas pandas.read_sql_query函数方法的使用
JSP进阶之 SimpleTagSupport 开发自定义标签
"Activity" 总结
C++：指针和const相关问题
2020李宏毅机器学习笔记——20. Unsupervised Learning —Neighbor Embedding(无监督学习之近邻嵌入)
转：【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图
C程序设计语言之一
安装CentOS7
《数学之美》之条件随机场与文法分析
web自动化测试：Selenium+Python基础方法封装（建议收藏）
【5】基于Log4Net的日志系统
PyQt（Python+Qt）学习随笔：model/view架构中类QStandardItemModel的使用方法

相关主题

机器学习资源
机器学习算法
机器学习和统计学习
机器学习算法总结
机器学习之K-means算法
算法_贪心算法

zl程序教程