zl程序教程

您现在的位置是:首页 >  其他

当前栏目

【Medical & Transformer】论文阅读(极简版),可忽略该篇(写给自己)

amp论文 自己 阅读 transformer 忽略 写给
2023-09-27 14:25:38 时间

复现的代码没看到。

Records

正常在Transformer中,都是通过线性变化来得到 q k v的。

下图中的1x1,是因为作者没有用全连接,用的是1x1的卷积,这样做也是可以的。

在这里插入图片描述


相对位置编码。倘若共有64号,在1号看来,有64个相对编码,2号看来也是有 64个相对位置编码。

在一开始的时候,是通过随机初始化的方式,往后就是会更新的,相对位置编码 是可学习的参数。

在这里插入图片描述


⨂ \bigotimes 符号的意思是矩阵乘法。

在这里插入图片描述


在这里插入图片描述