您现在的位置是：首页 > 硬件

当前栏目

自然语言处理NLP星空智能对话机器人系列：贝叶斯Transformer语言模型GPT课程片段1到片段4

机器人语言智能处理系列模型课程 NLP

2023-09-27 14:26:46 时间

星空智能对话机器人的Gavin认为Transformer是拥抱数据不确定性的艺术。

Transformer的架构、训练及推理等都是在Bayesian神经网络不确定性数学思维下来完成的。Encoder-Decoder架构、Multi-head注意力机制、Dropout和残差网络等都是Bayesian神经网络的具体实现；基于Transformer各种模型变种及实践也都是基于Bayesian思想指导下来应对数据的不确定性；混合使用各种类型的Embeddings来提供更好Prior信息其实是应用Bayesian思想来集成处理信息表达的不确定性、各种现代NLP比赛中高分的作品也大多是通过集成RoBERTa、GPT、ELECTRA、XLNET等Transformer模型等来尽力从最大程度来对抗模型信息表示和推理的不确定性。

从数学原理的角度来说，传统Machine Learning及Deep learning算法训练的目标函数一般是基于Naive Bayes数学原理下的最大似然估计MLE和最大后验概率MAP来实现，其核心是寻找出最佳的模型参数；而Bayesian的核心是通过计算后验概率Posterior的predictive distribution，其通过提供模型的不确定来更好的表达信息及应对不确定性。对于Bayesian架构而言，多视角的先验概率Prior知识是基础，在只有小数据甚至没有数据的时候是主要依赖模型Prior概率分布(例如经典的高斯分布)来进行模型推理，随着数据的增加，多个模型会不断更新每个模型的参数来更加趋近真实数据的模型概率分布；与此同时，由于（理论上）集成所有的模型参数来进行Inference，所以Bayesian神经网络能够基于概率对结果的提供基于置信度Confidence的分布区间，从而在各种推理任

猜你喜欢

c++：json字符串拼接，json对象组装
什么是默认网关？
《iOS应用软件设计之道》—— 3.1　流向：从一个画面到另一个画面
伪造数据成新网络威胁更有迷惑性更危险
《精通 ASP.NET MVC 5》----导读
Linux— file命令用于辨识文件类型
(CNVD-2021-49104) 泛微E-Office v9.0任意文件上传漏洞
“终极学生搜索”比赛 TOP5获奖学生获胜秘籍
android 开发解密时出现pad block corrupted 错误
Fenwick Tree / Binary Indexed Tree
js 高精度运算
使用Jenkins做持续集成，这个知识点必须要掌握
Qt编写linux上视频流播放器（支持海康大华宇视等各种网络摄像机）
Java小白入门200例46之 foreach 语句
mysql keepalived双主ha
基于EM算法的图像融合算法，对图像不用进行多尺度分解
WEB安全基础 - - -SQL注入利用
ICT如何促进可持续发展？国际电联发布17项目标
sudo开发常用命令总结
头文件循环引用的错误
UITabBarController使用详解
OpenCV中的图像阈值处理算法
Echart前端的修饰器，你不来看看吗？
我的软考之路（七）——数据结构与算法（5）之查找
Leetcode: Sort List
【SPOJ】Highways（矩阵树定理）
论文阅读笔记CVPR2020 Semantic Image Manipulation Using Scene Graphs

相关主题

机器人教程
机器人
钉钉机器人
手术机器人
2023.10 聊天机器人
qq机器人
机器人移动
人形机器人

zl程序教程

当前栏目

自然语言处理NLP星空智能对话机器人系列：贝叶斯Transformer语言模型GPT课程片段1到片段4

星空智能对话机器人的Gavin认为Transformer是拥抱数据不确定性的艺术。

相关文章