zl程序教程

您现在的位置是:首页 >  其它

当前栏目

Logistic Regression

Logistic Regression
2023-06-13 09:11:59 时间

Logistic regression, despite its name, is a linear model for classification rather than regression. Logistic regression is also known in the literature as logit regression, maximum-entropy classification (MaxEnt) or the log-linear classifier. In this model, the probabilities describing the possible outcomes of a single trial are modeled using a logistic function.

Binary classification

对于生活中常见的二分类问题,我们可以通过建立一个回归方程来解决,我们希望有一个函数h(x)的输入在[0,1]之间(二分类问题一般将类标签定义为0和1,因此[0,1]以外的值会给分类带来很多麻烦。下边介绍一个比较常用的函数:

logistic function/sigmoid function

logistic regression model

参数估计(Maximum likelihood &Stochastic gradient ascent)

  1. 为求得似然函数的最大值,一般采用梯度上升的法则(gradient ascent):
  1. 除了利用梯度上升的算法,我们也可以从牛顿的求根法则中获得灵感

似然函数取最大值意味着一阶导数为0,也就是说我们需要找一阶导数的零点这样我们就可以利用下边的迭代原则:

两类到多类的推广

老师说,LR最完美的地方在于建立了一个很完整的概率框架–分类问题再也不是以前那种0-1的问题,而是通过函数形式化了样本输入某一类的概率(模糊值)。借助这个完整的概率框架,LR从两类到类的推广的实现也有了新的可能。

损失函数另一个视角

同样的可以通过极大似然估计来刻画损失函数,这里给出一种另外一个角度的解释

对于每一个训练样本,我们可以假设它的类别判断为q,除了q所属的真实的类别以外,q属于其他类的值我们都设为0。这样我们相当于得到了训练样本真实的概率分布状况。然后我们可以用相同的办法来定义pip_ipi​表示训练样本属于某一个类别的概率大小,这样我们就可以借助交叉熵的概念来构造多类别逻辑回归的损失函数(如图中所示),其实损失函数刻画的就是伪概率与真实概率的相近程度,我们分类的目的其实是希望两者越接近越好! 接着其实可以进行进一步的优化,在我们标注时,我们或许可以对q进行优化,不是分成0-1的hard label,而是能够建立一种soft label,即对样本实际归属某一类的概率进行估计。

评估

  • 高效
  • 可解释
  • 容易快速实现

一个最主要的缺点是我们不能用它解决非线性问题,因为它的决策面是线性的。

线性回归到逻辑回归

从逻辑回归的一些假设能看出二者的明显不同:

  • 逻辑回归不需要自变量与因变量之间线性关系的假设
    • 逻辑回归假设自变量和对数几率是线性的。虽然这种分析不要求因变量和自变量线性相关,但它要求自变量与对数几率线性相关。
  • 逻辑回归不需要误差项正态分布的假设
  • 不需要方差齐性
  • 逻辑回归中的因变量不是在区间或比率尺度上测量的(分类问题)

其他假设则与线性模型相近:

  • 逻辑回归要求观察结果彼此独立。换言之,观察结果不应来自重复测量或匹配数据。
  • 逻辑回归要求自变量之间很少或没有多重共线性。这意味着自变量之间的相关性不应太高
  • 逻辑回归通常需要大样本量。对于模型中的每个自变量,一般情况下至少需要 10 个结果频率最低的样本。