Transformer面试 GavinNLP Transformer101之11-20
11,Bert的CLS能够有效的表达Sentence Embeddings吗?
12,使用BPE (Byte-Pair Encoding) 进行Tokenization对于Cross-lingual语言模型的意义是什么?是否会有问题及如何改进?
13,如果使用Transformer对不同类别的数据进行训练,数据集有些类别的数据量很大(例如有10亿条),而大多数类别的数据量特别小(例如可能只有100条),此时如何训练出一个相对理想的Transformer模型来对处理不同类别的任务?
14,如何使用使用多种类小样本对Transformer训练而取得很好的分类效果,请详述背后的架构设计和数学机制
15,在给Transformer输入Embeddings的时候是否可以使用多方来源的词嵌入训练模型?请阐述背后的数学原理及工程上的具体实现机制
16,更深更宽的Transformer网络是否意味着能够获得更强的预训练模型?请至少从3个角度,例如架构的工程化落地、参数的信息表达能力、训练任务等,来展开具体的分析
17,如何大规模降低Transformer中Embedding中的参数数量?请至少具体分析一种具体方法背后的数学原理和工程实践
18,请描述Trasnformer不同的Layer之间的FeedForward神经网络之间的联系,例如在Bert中不同Layer之间的CLS 有什么关系、对角矩阵随着Layer的加深有何变化等
19,如何降低Transformer的Feedforward层的参数数量?请详述背后的数学原理和工程实践
20,Transformer的Layer深度过深,例如512个Layer,会可能导致什么现象?请详述背后的数学机制
相关文章
- 想要面试大数据工作的50道必看题
- 百度面试经验
- 面试题目:
- MySQL系列:rabbitmq和kafka的区别面试
- 字节跳动Android岗经典面试真题,灵魂拷问
- mysql 经典面试问题(2)
- 面试知识,数据库索引优化
- 软件测试面试被面试官问到:你会搭建测试环境吗?该怎么回答显得很有水平
- 搞定PHP面试 - 运算符知识点整理
- 凭借这份Java超硬核面试 “备战” 手册!我刚面试完字节跳动、阿里、华为、小米等后端岗位
- 软件测试面试有那么难吗?这些面试题你能回答出几个
- 李洪强iOS经典面试题156 - Runtime详解(面试必备)
- 聊聊面试培训机构学员的感受
- 前端面试问题(持续更新)
- [ 面试分享篇 ] 找工作不难,难的是行动(安全岗为例)