zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

9-机器学习进阶_ELMO, BERT, GPT

机器学习 进阶 GPT bert
2023-09-11 14:14:28 时间

在这里插入图片描述
one-hot 到word class(硬分类),再到word embedding(软分类),就是转换成计算机能读懂的语言,哪个表示的更好

在这里插入图片描述
传统的word embedding不能解决一词多义,是一个word type一个向量,而不是一个word token一个向量,可以通过查字典,但是词典也是不全面的,有的可能是两个意思,有的可能是三个意思等等
在这里插入图片描述
结合上下文给当前次做语义表示
在这里插入图片描述
正向和反向集合
在这里插入图片描述
横向的双向和纵向深度,他学出来的embedding是固定的,结合下游任务学的是加权的参数,把所有层的输出包括原始的输入做加权和,然后加权的参数根据下游的任务自动学出来
在这里插入图片描述
分类,所谓的预训练和下游任务的训练,其实模型结构都是一样的,就是预训练也可以看做普通的模型结构,只不过是用了大部分的其他数据,做了一些数据上的处理策略,本质山还是有监督学习的方式,只不过这些标注数据是不需要人为可以去标注,所以叫无监督,CLS这个位置做分类,是预训练的时候就人为约定了,然后模型就自动学了
在这里插入图片描述
分类的参数从头学,下面的只要稍微调整下即可
在这里插入图片描述
针对字的分类,实体识别,一样预训练和下游其实差不多都是对应的
在这里插入图片描述
问题得到答案,答案的开头和答案的结尾那个都是一个要学习的参数而已。
里面都是向量的流转,向量就是参数的作用得到的,这些参数就是需要学习出来的
问答系统,得出是是两个值S和E,是有一个向量和输出做相似度计算然后softmax,去最大的值,并不是说没个字做二分类
在这里插入图片描述
每层学到的信息不同,浅层的词,句法,到后深层次的语义,针对不同的任务,可以取相应的层做组合而已,理解里面的原理,就可以灵活运用,这就是为什么有些任务取中间层,可以把所以层的输出为一个带权重的相加,权重可以学出来,自然有些位置为0,有些不是,就体现出具体下游任务跟哪些具体层有关了
在这里插入图片描述
可以迁移学习,做零样本学习
在这里插入图片描述
一个词一个词的输入输出,只能往前面做self-attention.明确哪个是输入哪个是输出。BOS-EOS。输入和输出的关系,就是刚好错开一个字符了。
可以在这里插入图片描述
在这里插入图片描述
可以直接做零样本学习,给个特殊的提示
在这里插入图片描述
不同层的输出关注的输入是不一样的,注意力的时候,如果不知道attention带那个,可能就好惯性的找哪个