您现在的位置是：首页 > 其它

当前栏目

交叉熵求导

交叉求导

2023-09-14 09:15:49 时间

在这里插入图片描述

. 输入为z向量， $z=[z_{1},z_{2},...,z_{n}]$ ，维度为（1，n）输出 $s=[\frac{e^{1}}{\sum_{k=1}^{n}e^{k}},\frac{e^{2}}{\sum_{k=1}^{n}e^{k}},...,\frac{e^{n}}{\sum_{k=1}^{n}e^{k}}]$ ,

维度为（1，n）

2. 经过softmax函数， $s_{i}=\frac{e^{i}}{\sum_{k=1}^{n}e^{k}}$

3. Softmax Loss损失函数定义为L， $L=-\sum_{k=1}^{n}y_{i}\ln \left ( s_{i}\right )$ ,L是一个标量，维度为（1,1）

其中y向量为模型的Label，维度也是（1，n），为已知量，一般为onehot形式。

我们假设第 j 个类别是正确的，则y=[0,0,…1,…,0],只有 $y_{j}=1$ ,其余 $y_{j}=0$

$L=-y_{j}\ln \left ( s_{j}\right )==-\ln \left ( s_{j}\right )$

我们的目标是求标量L对向量 Z 的导数 $\frac{\partial L}{\partial Z}$

由链式法则， $\frac{\partial L}{\partial z}=\frac{\partial L}{\partial s}\cdot\frac{\partial s}{\partial z}$

其中s和z均为维度为（1，n）的向量。

$\frac{\partial L}{\partial s}=[0,0,...,-\frac{1}{s_{j}},0,...,0] ,dim=[1*n]$

$\frac{\partial s}{\partial z}=$ 如下,dim=[n*n]

$\frac{\partial s}{\partial z}=\begin{bmatrix} s_{1}*[1- s_{1}]& -s_{1}* s_{2}& -s_{1}* s_{3}& ... & -s_{1}* s_{j}&...&-s_{1}* s_{n}& \\ -s_{2}* s_{1}& s_{2}*[1- s_{2}] & -s_{2}* s_{2}& ....&-s_{2}* s_{j}&...&-s_{2}* s_{n} \\ -s_{3}* s_{1}& -s_{3}* s_{2}& s_{3}* [1-s_{3}] & ...&-s_{3}* s_{j}&...&-s_{3}* s_{n} \\ ...& ... & ...& ...& ...& ...& \\ -s_{j}* s_{1}& -s_{j}* s_{2}& -s_{j}* s_{3}& ...&s_{j}* [1-s_{j}]&...&-s_{j}* s_{n} \\ ...& ... & ...& ...& ...& ...& \\ -s_{n}*s_{1}& -s_{n}*s_{2}& - s_{n}*s_{3}& ....& - s_{n}*s_{j}&...&s_{n}*[1-s_{n} ]& \end{bmatrix}$

[1＊n] $\frac{\partial L}{\partial s}$ 的矩阵左乘n*n的矩阵 $\frac{\partial s}{\partial z}$

$\frac{\partial L}{\partial z}=\frac{\partial L}{\partial s}\cdot\frac{\partial s}{\partial z}=[s_{1},s_{2},...,s_{j}-1,...,s_{n}]=s-y$

主要链接
 在线latex
一个国外的小哥的推导

猜你喜欢

Django之form表单
LIGO找到首个超越广义相对论的证据？
python K-means工具包初解
windows下lib文件文件解析 dll.lib windows下动态库dll也要有个 lib
Lucene dvd dvm文件便是docvalues文件——就是针对field value的列存储
一个能够自己主动生成静态库，自己主动安装程序的Makefile
Python实现贝叶斯优化器(Bayes_opt)优化XGBoost分类模型(XGBClassifier算法)项目实战
Mybatis中模糊查询的各种写法（转）
【Go基础】接口interface
「小程序邀请体验」工具应该有岁月静好婊的调性
Mysql-Proxy 读写分离的各种坑，特别是复制延迟时
【解决】virtualbox启动报创建COM对象失败错误
[React] When to useReducer instead of useState

相关主题

机器学习 | 交叉验证
Linux交叉编译
交叉编译
交叉验证
交叉熵
交叉连接
mysql 交叉表
交叉工具链

zl程序教程

当前栏目

交叉熵求导

. 输入为z向量， $z=[z_{1},z_{2},...,z_{n}]$ ，维度为（1，n）输出 $s=[\frac{e^{1}}{\sum_{k=1}^{n}e^{k}},\frac{e^{2}}{\sum_{k=1}^{n}e^{k}},...,\frac{e^{n}}{\sum_{k=1}^{n}e^{k}}]$ ,

维度为（1，n）

2. 经过softmax函数， $s_{i}=\frac{e^{i}}{\sum_{k=1}^{n}e^{k}}$

3. Softmax Loss损失函数定义为L， $L=-\sum_{k=1}^{n}y_{i}\ln \left ( s_{i}\right )$ ,L是一个标量，维度为（1,1）

其中y向量为模型的Label，维度也是（1，n），为已知量，一般为onehot形式。

我们假设第 j 个类别是正确的，则y=[0,0,…1,…,0],只有 $y_{j}=1$ ,其余 $y_{j}=0$

$L=-y_{j}\ln \left ( s_{j}\right )==-\ln \left ( s_{j}\right )$

我们的目标是求标量L对向量 Z 的导数 $\frac{\partial L}{\partial Z}$

由链式法则， $\frac{\partial L}{\partial z}=\frac{\partial L}{\partial s}\cdot\frac{\partial s}{\partial z}$

其中s和z均为维度为（1，n）的向量。

[1＊n] $\frac{\partial L}{\partial s}$ 的矩阵左乘n*n的矩阵 $\frac{\partial s}{\partial z}$

相关文章

当前栏目

交叉熵求导

维度为（1，n）

2. 经过softmax函数， s i = e i ∑ k = 1 n e k s_{i}=\frac{e^{i}}{\sum_{k=1}^{n}e^{k}} si​=∑k=1n​ekei​

3. Softmax Loss损失函数定义为L， L = − ∑ k = 1 n y i ln ⁡ ( s i ) L=-\sum_{k=1}^{n}y_{i}\ln \left ( s_{i}\right ) L=−∑k=1n​yi​ln(si​),L是一个标量，维度为（1,1）

其中y向量为模型的Label，维度也是（1，n），为已知量，一般为onehot形式。

我们假设第 j 个类别是正确的，则y=[0,0,…1,…,0],只有 y j = 1 y_{j}=1 yj​=1,其余 y j = 0 y_{j}=0 yj​=0

L = − y j ln ⁡ ( s j ) = = − ln ⁡ ( s j ) L=-y_{j}\ln \left ( s_{j}\right )==-\ln \left ( s_{j}\right ) L=−yj​ln(sj​)==−ln(sj​)

我们的目标是求 标量L对向量 Z 的导数 ∂ L ∂ Z \frac{\partial L}{\partial Z} ∂Z∂L​

由链式法则， ∂ L ∂ z = ∂ L ∂ s ⋅ ∂ s ∂ z \frac{\partial L}{\partial z}=\frac{\partial L}{\partial s}\cdot\frac{\partial s}{\partial z} ∂z∂L​=∂s∂L​⋅∂z∂s​

其中s和z均为维度为（1，n）的向量。

[1＊n] ∂ L ∂ s \frac{\partial L}{\partial s} ∂s∂L​的矩阵左乘n*n的矩阵 ∂ s ∂ z \frac{\partial s}{\partial z} ∂z∂s​

相关文章

2. 经过softmax函数， $s_{i}=\frac{e^{i}}{\sum_{k=1}^{n}e^{k}}$

3. Softmax Loss损失函数定义为L， $L=-\sum_{k=1}^{n}y_{i}\ln \left ( s_{i}\right )$ ,L是一个标量，维度为（1,1）

我们假设第 j 个类别是正确的，则y=[0,0,…1,…,0],只有 $y_{j}=1$ ,其余 $y_{j}=0$

$L=-y_{j}\ln \left ( s_{j}\right )==-\ln \left ( s_{j}\right )$

我们的目标是求标量L对向量 Z 的导数 $\frac{\partial L}{\partial Z}$

由链式法则， $\frac{\partial L}{\partial z}=\frac{\partial L}{\partial s}\cdot\frac{\partial s}{\partial z}$

[1＊n] $\frac{\partial L}{\partial s}$ 的矩阵左乘n*n的矩阵 $\frac{\partial s}{\partial z}$