您现在的位置是：首页 > 其它

当前栏目

注意力公式步骤每一步的含义，总共三步

步骤一步含义公式注意力三步

2023-09-14 09:14:43 时间

Transformer - Attention is all you need - 知乎

q，k，v分别是query，key，value，对于encoder self-attention，第一次计算的初始值是每个字的embedding，

1、q用来和k做点乘计算相似度，
2、这些相似度经过softmax变成权重，
3、然后权重和v相乘，其实就是v的一个加权平均。

如果是encoder-decoder attention，q是decoder的hidden state，k和v是encoder各个位置的hidden state。

猜你喜欢

力扣：排序之topK||Kth元素的问题
数据结构--Dijkstra算法最清楚的讲解
Fiori launchpad服务器端的配置和来自SAP Fiori专家的调试建议
printf那点事
Atitti.软件的一些理论补充 Atitti.软件的原理原则定律法则补充目录 1.1. 分布式领域CAP理论，1 1.2. 关系数据库的ACID模型拥有高一致性 + 可用性很难进行分区：
Asp.Net Web API 2第十七课——Creating an OData Endpoint in ASP.NET Web API 2（OData终结点）
44道JavaScript送命题
mysql查询乱码解决方法
笔记：前额皮质的作用
C语言ASCII码、运算符优先级、转义字符
lwip：与tcp发送相关的选项和函数
c++枚举类型(二) c++11 枚举类
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa2
HDU1157 Who's in the Middle
[SQL] MSSQL update 语句中的关联
[Angular] Zones and NgZone
怎么在便签中添加计划提醒事项?

相关主题

hibernate---步骤
Python安装步骤

zl程序教程

当前栏目

注意力公式步骤每一步的含义，总共三步

相关文章