机器学习:基本算法分类体系结构和文章汇总
机器学习
Machine Learning
特征工程
TensorFlow
神经网络
图像识别
自然语言处理
机器学习定义
从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测
算法是核心,数据和计算是基础
掌握算法思想,使用库或框架解决问题
数据类型
离散型数据 计数数据,数据都是整数,不能再细分
连续型数据 某个范围内取任意一数,非整数
机器学习算法分类
监督学习 特征值 + 目标值
-分类 目标值离散型数据
-k-近邻算法
-贝叶斯分类
-决策树与随机森林
-逻辑回归
-神经网络
-回归 目标值连续型数据
-线性回归
-岭回归
-标注
-隐马尔科夫模型(不要求)
无监督学习 特征值
聚类 K-means
分类是监督学习的一个核心问题,最基础的是二分类问题
机器学习的开发流程
1、根据原始数据明确问题种类
2、数据基本处理,pd(缺失值,合并表)
3、特征工程
4、找到合适的算法进行预测(分类,回归),参数调优
模型:算法 + 数据
5、 模型评估,判断效果
6、上线使用,以api形式提供
特征工程3大知识点
-特征抽取
-特征预处理
-特征降维
转换器与预估器
转换器transformer
fit_transform() 输入数据直接转换
fit() 输入数据,但不做事情,会用这个数据计算平均值等数据
transform() 进行数据转换
fit_transform = fit + transform
估计器estimator
sklearn机器学习算法实现
分类估计器
-sklearn.neighbors k-近邻算法
-sklearn.naive_bayes 贝叶斯
-sklearn.linear_model.LogisticRegression 逻辑回归
-sklearn.tree 决策树与随机森林
回归估计器
-sklearn.linear_model.LinearRegression 线性回归
-sklearn.linear_model.Ridge 岭回归
基本使用流程
fit(X_train, y_train)
y_predict = predict(X_test)
score(X_test, y_test)
API
sklearn.metrics.classification_report
知识结构
数据集划分
-训练集和测试集
-train_test_split
转换器和估计器
-转换器
-实例化
-fit_transform
-fit
-transform
-估计器
-实现了一类算法的API
-流程
-fit训练数据
-predict预测测试集的结果
-score得出准确率
分类算法
-目标值是离散型
-K-近邻
-距离公式
-优点
-理解简单,易于实现
-缺点
-K值取值
-性能问题,不太合适用在大量的数据集
-超参数
-数据的处理:标准化(必须)
-朴素贝叶斯
-条件独立,才能叫朴素贝叶斯
-概率公式 条件概率和联合概率
-贝叶斯公式
-优点
-主要在文本分类上应用
-准确率比较高
-理论基础:概率
-缺点
-条件独立
-历史数据的准确性影响较大
-数据处理:文本的特征抽取
-决策树
-信息论
-信息熵
-信息增益
-信息熵的大小变化是和不确定性相关
-分类依据
-信息增益(掌握)
-信息增益比
-基尼系数(scikitlearn默认)
-优点
-准确率高
-适用于各种数据
-可解释性
-缺点
-容易过拟合,树的建立太深
-随机森林
-一种集成学习方法,多个同样的分类器组成
-多个决策树组成
-建立过程
-优点
-准确率高
-不会过拟合
-对大数据集适用
-超参数,树的深度,多少棵树
分类算法的评估
-准确率
-精确率和召回率
-混淆矩阵
-每个类别都会有
-模型调参数
-交叉验证 为了让数据都能够进行验证和训练
-训练数据(训练+验证)
-K折交叉验证
-网格搜索
-每个参数都会查看效果,选出效果好的参数
-参数的组合(1, 2)
文章汇总
机器学习:特征工程字典特征和文本特征抽取
https://blog.csdn.net/mouday/article/details/86325387
机器学习:数据特征预处理归一化和标准化
https://blog.csdn.net/mouday/article/details/86378595
机器学习:数据特征预处理缺失值处理
https://blog.csdn.net/mouday/article/details/86430553
机器学习:数据降维特征选择和主成分分析PCA
https://blog.csdn.net/mouday/article/details/86437866
机器学习:sklearn数据集简介
https://blog.csdn.net/mouday/article/details/86441782
机器学习:K-近邻算法对鸢尾花数据进行分类预测
https://blog.csdn.net/mouday/article/details/86501149
机器学习:朴素贝叶斯算法对新闻分类
https://blog.csdn.net/mouday/article/details/86516935
机器学习:分类模型的评估精确率Presicion和召回率Recall
https://blog.csdn.net/mouday/article/details/86562391
机器学习:模型选择与调优交叉验证和网格搜索
https://blog.csdn.net/mouday/article/details/86562457
机器学习:信息熵决策树预测泰坦尼克数据
https://blog.csdn.net/mouday/article/details/86565057
机器学习:随机森林预测泰坦尼克数据
https://blog.csdn.net/mouday/article/details/86567939
机器学习:线性回归基础知识
https://blog.csdn.net/mouday/article/details/86619285
机器学习:欠拟合过拟合岭回归预测波士顿房价
https://blog.csdn.net/mouday/article/details/86652862
机器学习:sklearn训练结果的保存和加载
https://blog.csdn.net/mouday/article/details/86652953
机器学习:逻辑回归预测癌症数据
https://blog.csdn.net/mouday/article/details/86653227
机器学习: k-means聚类对数据进行预分类
https://blog.csdn.net/mouday/article/details/86662154
相关文章
- 基于Spark的机器学习实践 (九) - 聚类算法
- 基于机器学习和TFIDF的情感分类算法,详解自然语言处理
- “绝影”机器狗如何利用ModelArts强化学习算法更改导航轨迹
- 机器学习算法的几种主要类型
- 机器学习-有监督学习-分类算法:SVM/支持向量机【SVM:高维空间里用于二分类的超平面;支持向量:超平面附近隔离带边界上的样本】【求参数(ω,b)使超平面y(x)=Φ(x)·ω+b能最优分隔两集合】
- 机器学习-有监督学习-分类算法:最大熵模型【迭代过程计算量巨大,实际应用比较难;scikit-learn甚至都没有最大熵模型对应的类库】
- 机器学习-有监督学习-集成学习方法(三):Bootstrap->Boosting(提升)方法-->前向分步算法-->Adaboost算法--+决策树-->Adaboost提升树
- 机器学习-降维方法-无监督学习:PCA算法(主成分分析)【计算协方差矩阵X^TX的特征值与特征向量W(特征向量W控制旋转、特征值控制尺度)->特征向量W作为投影矩阵->将样本X通过W投影进行降维】
- 人工智能-机器学习-算法-无监督学习:Contrastive Predictive Coding(对比预测编码)
- 机器学习十大算法都是何方神圣?看完你就懂了
- 机器学习算法总结(九)——降维(SVD, PCA)
- 机器学习算法之-kemans 聚类算法
- 机器学习中算法与模型的区别
- 机器学习笔记之线性回归最小二乘法(公式推导和非调包实现)
- Python机器学习算法
- 轻松看懂机器学习十大常用算法
- 机器学习--详解人脸对齐算法SDM-LBF
- 在opencv3中的机器学习算法练习:对OCR进行分类
- 七月算法机器学习 6 特征工程
- 机器学习常见算法分类汇总
- 【机器学习算法-python实现】采样算法的简单实现
- 【机器学习算法-python实现】扫黄神器-朴素贝叶斯分类器的实现
- 机器学习算法一览图