您现在的位置是：首页 > 其他

当前栏目

Transformer面试 GavinNLP Transformer101之11-20

面试 11 20 transformer

2023-09-27 14:26:46 时间

11，Bert的CLS能够有效的表达Sentence Embeddings吗？
12，使用BPE (Byte-Pair Encoding) 进行Tokenization对于Cross-lingual语言模型的意义是什么？是否会有问题及如何改进？
13，如果使用Transformer对不同类别的数据进行训练，数据集有些类别的数据量很大(例如有10亿条)，而大多数类别的数据量特别小(例如可能只有100条)，此时如何训练出一个相对理想的Transformer模型来对处理不同类别的任务？
14，如何使用使用多种类小样本对Transformer训练而取得很好的分类效果，请详述背后的架构设计和数学机制
15，在给Transformer输入Embeddings的时候是否可以使用多方来源的词嵌入训练模型？请阐述背后的数学原理及工程上的具体实现机制
16，更深更宽的Transformer网络是否意味着能够获得更强的预训练模型？请至少从3个角度，例如架构的工程化落地、参数的信息表达能力、训练任务等，来展开具体的分析
17，如何大规模降低Transformer中Embedding中的参数数量？请至少具体分析一种具体方法背后的数学原理和工程实践
18，请描述Trasnformer不同的Layer之间的FeedForward神经网络之间的联系，例如在Bert中不同Layer之间的CLS 有什么关系、对角矩阵随着Layer的加深有何变化等
19，如何降低Transformer的Feedforward层的参数数量？请详述背后的数学原理和工程实践
20，Transformer的Layer深度过深，例如512个Layer，会可能导致什么现象？请详述背后的数学机制

猜你喜欢

教育研究如何跟上大数据时代
iOS开发UI篇—Quartz2D简单使用(二)
AviatorScript学习记录
程序返回值的数据结构
从0到1实现Web端H.265播放器：视频解码篇
Linux系统资源使用情况
第一篇 FPGA基础知识
Confluence 6 LDAP 高级设置
c#开发和学习（基础）
基因表达调控 | 实验技术
他人的一些2017年度总结
【Java集合系列】---ArrayList
【TP5】对于广告分类跟搜索的解决方案
jquery val() and text().

相关主题

1.redis面试
VUE 面试总结
腾讯面试总结
面试记录
面试问题
面试资料
面试心得
企业面试真题--006
面试小技巧
面试（四）
java面试（五）
jvm面试
Spring面试问题
面试笔记1
Java面试50题
简单c面试
Java面试9.26

zl程序教程

当前栏目

Transformer面试 GavinNLP Transformer101之11-20

相关文章