其中最常用的是平方损失，然而其缺点是对于异常点会施以较大的惩罚，因而不够robust。如果有较多异常点，则绝对值损失表现较好，但绝对值损失的缺点是在y−f(x)=0处不连续可导，因而不容易优化。
Huber损失是对二者的综合，当|y−f(x)|小于一个事先指定的值δ时，变为平方损失，大于δ时，则变成类似于绝对值损失，因此也是比较robust的损失函数。三者的图形比较如下：

huber函数与smoothL1函数差不多

分类问题的损失函数

对于二分类问题，y∈{−1,+1}

，损失函数常表示为关于yf(x)

的单调递减形式。如下图：

yf(x)被称为margin，其作用类似于回归问题中的残差 y−f(x)。
二分类问题中的分类规则通常为 sign(f(x))={+1ifyf(x)≥0−1ifyf(x)<0

可以看到如果 yf(x)>0，则样本分类正确，yf(x)<0 则分类错误，而相应的分类决策边界即为 f(x)=0

。所以最小化损失函数也可以看作是最大化 margin 的过程，任何合格的分类损失函数都应该对 margin<0 的样本施以较大的惩罚。

1、 0-1损失 (zero-one loss)

0-1损失对每个错分类点都施以相同的惩罚，这样那些“错的离谱“ (即 margin→−∞)的点并不会收到大的关注，这在直觉上不是很合适。另外0-1损失不连续、非凸，优化困难，因而常使用其他的代理损失函数进行优化。

2、Logistic loss

3、Hinge loss

L( y, f( x))= m a x(0,1− y f( x))

hinge loss为svm中使用的损失函数，hinge loss使得yf(x)>1的样本损失皆为0，由此带来了稀疏解，使得svm仅通过少量的支持向量就能确定最终超平面。

hinge loss被翻译为“合页损失”，那么合页究竟长啥样？如图，确实有点像hinge loss的形状：

4、指数损失(Exponential loss)

L( y, f( x))= e− y f( x)

exponential loss为AdaBoost中使用的损失函数，使用exponential loss能比较方便地利用加法模型推导出AdaBoost算法 (具体推导过程)。然而其和squared loss一样，对异常点敏感，不够robust。

最后来张全家福：

从上图可以看出上面介绍的这些损失函数都可以看作是0-1损失的单调连续近似函数，而因为这些损失函数通常是凸的连续函数，因此常用来代替0-1损失进行优化。它们的相同点是都随着margin→−∞

而加大惩罚；不同点在于，logistic loss和hinge loss都是线性增长，而exponential loss是以指数增长。

值得注意的是上图中modified huber loss的走向和exponential loss差不多，并不能看出其robust的属性。其实这和算法时间复杂度一样，成倍放大了之后才能体现出巨大差异：

机器学习的损失函数

Cross Entropy Loss Function（交叉熵损失函数）

交叉熵优点

Mean Squared Error (均方误差)

均方差不足

实例

交叉熵求解损失：

均方差函数求损失

学习过程

4、根据损失函数进行梯度计算，反向传播更新参数，反复1-4

学习笔记

参考文献

https://zhuanlan.zhihu.com/p/35709485

常见回归和分类损失函数比较

猜你喜欢

Razor语法(二)
android自定义viewgroup之我也玩瀑布流
Windows Server 2016软路由配置
kernel笔记——VFS
用数据科学搭建一个实时推荐引擎
《原则》思想摘要
《日志管理与分析权威指南》一2.2.1　日志格式和类型
Oracle wm_concat函数排序的解决方法
移植opencv2.4.9到itop4412开发板
socket的双重属性
WinDbg 配置联机调试环境搭建
centos6.8上yum安装zabbix3.2
【离散数学】期中测试
6.VUE事件处理
leetcode 75. Sort Colors 颜色分类
hadoop集群故障排除

相关主题

Java基础学习(5)
Git学习笔记
B-树学习笔记
数据挖掘学习

zl程序教程

当前栏目

【深度学习】——分类损失函数、回归损失函数、交叉熵损失函数、均方差损失函数、损失函数曲线、

代码

回归问题的损失函数