您现在的位置是：首页 > 工具

当前栏目

西瓜书学习笔记第3章（线性模型）

笔记学习模型线性西瓜

2023-09-14 09:14:59 时间

西瓜书学习笔记第3章（线性模型）

3.1基本形式
3.2线性回归
3.3对数几率回归
3.4线性判别分析（Linear Discriminant Analysis ，简称LDA）
3.5多分类学习
3.6类别不平衡问题

3.1基本形式

给定由 d 个属性描述的示例 x = (x1;x2;…;xd) ，其中 xi 是 x 在第 i 个属性上的取值，线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即
在这里插入图片描述
一般用向量形式写成

非线性模型（nonlinear model）可在线性模型的基础上通过引入层级结构或高维映射而得。此外，由于 w 直观表达了个属性在预测中的重要性，因此线性模型有很好的可解释性（comprehensibility）。

3.2线性回归

给定数据集在这里插入图片描述
线性回归试图学得一个线性模型来尽可能的准确预测实值输出标记。

对离散属性，若属性之间存在“序”（order）的关系，可通过连续化将其转化为连续值。例如“高”和“矮”可以转化为{1.0，0.0}，“高”、“中”、“低“可以转化为{1.0，0.5，0.0}。若属性之间不错在序关系，假定有 k 个属性值，则通常转化为 k 维向量。例如”西瓜“、”黄瓜“、”南瓜“可以转化为(0,0,1),(0,1,0),(1,0,0)。
线性回归试图学得在这里插入图片描述
均方误差最小化：可以求得 w 和 b，对应了”欧氏距离“，基于均方误差最小化来进行求解的方法称为”最小二乘法“——试图找到一条直线，使得所有样本到直线的欧氏距离之和最小。

其中
对数线性回归：在这里插入图片描述
广义线性模型：
其中g为单调可微函数，称为“联系函数”。

3.3对数几率回归

对于二分类任务，最理想的是”单位阶跃函数“，但是其不连续，不能直接用于上文中的 g-(.)，所以一般使用对数几率函数：
在这里插入图片描述
将其作为 g-(.) 代入得：
即：
其对应的模型称为”对数几率回归“（logistic regression），是一种分类学习方法。这种方法有很多优点：

直接对分类可能性进行建模，无需事先假设数据分布，避免了假设分布不准确带来的问题;
不是仅预测出类别，而是可得到近似概率预测，这对许多需要利用概率辅助决策的任务很有用;
对率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都课直接用于求取最优解

3.4线性判别分析（Linear Discriminant Analysis ，简称LDA）

亦称 Fisher判别分析。
LDA 的思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能近、异类样例的投影点尽可能远；对新样本进行分类时，将其投影到这条线上，再根据投影点的位置来确定类别。
在这里插入图片描述
类内散度矩阵(within-class scatter matrix)：
类间散度矩阵(between class scatter matrix)：
欲最大化的目标：
即 Sb 与 Sw 的”广义瑞利商“(generalized Rayleigh quotiet)。

3.5多分类学习

基本思路：”拆解法“，将多分类任务拆解为若干个二分类任务求解。涉及到多分类任务的拆分，以及对多个分类器的集成。

经典拆分策略：

1.一对一（OvO）One
将 N 个类别两两配对，从而产生 N(N-1)/2 个分类任务，最终结果可通过投票产生，把被预测的最多的作为分类结果。
2.一对其余（OvR）Rest
每次将一个类作为正例，其他所有类作为反例来训练 N 个分类器。在测试时，若只有一个分类器预测为正类，则作为最终分类结果。若有多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信度最大的类别标记作为分类结果。在这里插入图片描述
3.多对多（MvM）Many
每次将若干个类作为正类，若干个其他类作为反类。正反类的构造必须有特殊的设计，通常使用”纠错输出码“(Error Correcting Output Codes，简称 ECOC)。
纠错输出码（ECOC），将编码的思想引入类别拆分，并尽可能在解码过程中具有容错性。其工作过程分为两步：

编码：对 N 个类别做 M 次划分，形成 M 个二分类训练集，训练出 M 个分类器。
解码：M 个分类器分别对测试样本进行预测，这些预测标记组成一个编码，将这个预测编码与每个类各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

类别划分通过“编码矩阵”(coding matrix) 指定，常见的有二元码和三元码。前者将每个类别分别指定为正类和反类；后者在正反类之外，还可以指定“停用类”。

一般来说，对同一个学习任务， ECOC 编码越长，纠错能力越强.
对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠错能力越强.

3.6类别不平衡问题

类别不平衡(class-imbalance) ，指分类任务中不同类别的训练样例数目差别很大的情况。

“再缩放”策略：只要分类器的预测几率，高于观测几率，就应判断为正例，即
在这里插入图片描述
则预测为正例。

常用三种做法：

欠采样：去除一些反例，使得正反例数目接近。
过采样：增加一些正例，使得正反例数目接近。
阈值移动：上文“再缩放”策略。

参考博文链接https://blog.csdn.net/qq_38962336/article/details/106397677

猜你喜欢

Linux的源路由：开启一种新的网络连接方式（linux源路由）
解决MySQL打不开的问题（mysql一直打不开）
MySQL中探索递归查询：实现高效结果（mysql递归查询）
Calling browser from SAP ABAP详解编程语言
【说站】js中every方法怎么用？
SAP Fiori Launchpad url 参数 sap-app-origin-hint 的含义
MySQL性能设置
MySQL Error number: MY-010718; Symbol: ER_RPL_ERROR_WRITING_SLAVE_WORKER_CONFIGURATION; SQLSTATE: HY000 报错故障修复远程处理
权限提升 | 带SUID的命令提权
jQuery实现回车键（Enter）切换文本框焦点的代码实例
Spring 全家桶之 Spring Framework 5.3（二）- Part A
javascript修改图片src的方法
解决Redis频繁修改Map难题（redis频繁修改map）
解决MySQL启动问题的常见方法（mysql不能启动怎么办）
北京市教委：培训机构不得占用法定节假日及寒暑假组织学科类培训
ORA-15117: command only operates on one diskgroup ORACLE 报错故障修复远程处理
深入探究如何解决Redis问题（如何解决redis问题）
机制使用Java实现Redis数据过期机制（redisjava过期）

相关主题

C++ 学习笔记
3-7学习笔记
MySQL 笔记一
B-树学习笔记
python学习笔记3

zl程序教程

当前栏目

西瓜书学习笔记第3章（线性模型）

西瓜书学习笔记第3章（线性模型）

3.1基本形式

3.2线性回归

3.3对数几率回归

3.4线性判别分析（Linear Discriminant Analysis ，简称LDA）

3.5多分类学习

3.6类别不平衡问题

相关文章