您现在的位置是：首页 > 硬件

当前栏目

9-机器学习进阶_ELMO, BERT, GPT

机器学习进阶 GPT bert

2023-09-11 14:14:28 时间

在这里插入图片描述
one-hot 到word class（硬分类），再到word embedding（软分类），就是转换成计算机能读懂的语言，哪个表示的更好

在这里插入图片描述
传统的word embedding不能解决一词多义,是一个word type一个向量，而不是一个word token一个向量，可以通过查字典，但是词典也是不全面的，有的可能是两个意思，有的可能是三个意思等等

结合上下文给当前次做语义表示
在这里插入图片描述
正向和反向集合

横向的双向和纵向深度，他学出来的embedding是固定的，结合下游任务学的是加权的参数，把所有层的输出包括原始的输入做加权和，然后加权的参数根据下游的任务自动学出来

分类，所谓的预训练和下游任务的训练，其实模型结构都是一样的，就是预训练也可以看做普通的模型结构，只不过是用了大部分的其他数据，做了一些数据上的处理策略，本质山还是有监督学习的方式，只不过这些标注数据是不需要人为可以去标注，所以叫无监督，CLS这个位置做分类，是预训练的时候就人为约定了，然后模型就自动学了
在这里插入图片描述
分类的参数从头学，下面的只要稍微调整下即可

针对字的分类，实体识别，一样预训练和下游其实差不多都是对应的

问题得到答案，答案的开头和答案的结尾那个都是一个要学习的参数而已。
里面都是向量的流转，向量就是参数的作用得到的，这些参数就是需要学习出来的
问答系统，得出是是两个值S和E，是有一个向量和输出做相似度计算然后softmax,去最大的值，并不是说没个字做二分类
在这里插入图片描述
每层学到的信息不同，浅层的词，句法，到后深层次的语义，针对不同的任务，可以取相应的层做组合而已，理解里面的原理，就可以灵活运用，这就是为什么有些任务取中间层，可以把所以层的输出为一个带权重的相加，权重可以学出来，自然有些位置为0，有些不是，就体现出具体下游任务跟哪些具体层有关了
在这里插入图片描述
可以迁移学习，做零样本学习

一个词一个词的输入输出，只能往前面做self-attention.明确哪个是输入哪个是输出。BOS-EOS。输入和输出的关系，就是刚好错开一个字符了。
可以

可以直接做零样本学习，给个特殊的提示
在这里插入图片描述
不同层的输出关注的输入是不一样的，注意力的时候，如果不知道attention带那个，可能就好惯性的找哪个

猜你喜欢

js判断是否是移动设备,并跳转
一、使用Navicat连接阿里云服务器宝塔面板里创建的数据库
拖拽生产代码
【CF734F】Anton and School（构造）
Word控件Spire.Doc 【段落处理】教程(十八)：在 C# 中从 Word 文档中删除段落
[LeetCode] 1283. Find the Smallest Divisor Given a Threshold 使结果不超过阈值的最小除数
创业公司常用服务
java中的基本jdbc中mvc基本示例
算法训练 Pollution Solution（计算几何）

相关主题

机器学习面试
机器学习算法
机器学习的基本概念
机器学习-逻辑回归
机器学习与R语言

zl程序教程

当前栏目

9-机器学习进阶_ELMO, BERT, GPT

相关文章