zl程序教程

您现在的位置是:首页 >  其它

当前栏目

注意力公式步骤每一步的含义,总共三步

步骤 一步 含义 公式 注意力 三步
2023-09-14 09:14:43 时间

超详细图解Self-Attention - 知乎

Transformer - Attention is all you need - 知乎

熬了一晚上,我从零实现了Transformer模型,把代码讲给你听 - 知乎


q,k,v分别是query,key,value,对于encoder self-attention,第一次计算的初始值是每个字的embedding,

1、q用来和k做点乘计算相似度
2、这些相似度经过softmax变成权重
3、然后权重和v相乘,其实就是v的一个加权平均

如果是encoder-decoder attention,q是decoder的hidden state,k和v是encoder各个位置的hidden state。