您现在的位置是：首页 > 其他

当前栏目

LLM-2022：PaLM【参数量：5400亿（540B）】【用于训练的token数量：780B】【基于Pathways的大语言模型】

训练语言基于模型 2022 用于数量 Token

2023-09-27 14:20:37 时间

原文：PaLM： Scaling Language Modeling with Pathways

作者： ∗ Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma （Google)

一、简介

大型语言模型已被证明在各种自然语言任务中使用few-shot学习取得了显著的性能，这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对few-shot学习的影响，我们训练了一个5400亿参数、密集激活的Transformer语言模型，我们称之为Pathways语言模型（PaLM）。

我们使用Pathways在6144个TPU v4芯片上训练PaLM，这是一个新的ML系统，能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上取得最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上，PaLM 540B实现了突破性的性能，在一套多步骤推理任务上超过了微调的最先进水平，并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进，这意味着当我们扩展到最大的模型时，性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力，我们在一系列的基准测试中证明了这一点。我们还对偏差和毒性进行了全面的分析，并研究了与模型规模有关的训练数据记忆的程度。最后，我们讨论了与大型语言模型有关的伦理考虑，并讨论了

猜你喜欢

通过数据库表自动生成POJO(JavaBean)对象
抽取网页数据的不同思路
ueditor 上传的图片在内容里显示的尺寸过大的问题
Java Application下读取properties配置文
elementary os 0.4.1下编译GCC-7.1源码并安装成功
spring mvc的security配置提示 No bean named 'springSecurityFilterChain' available
Xamarin 2017.10.9更新
【转】Dubbo_与Zookeeper、SpringMVC整合和使用（负载均衡、容错）
Ubuntu 14.04 git使用
动态链接库.dll、.so和静态库.a，cmake指令

相关主题

c++ | 训练01
3/14 训练一
蓝桥杯训练7
蓝桥杯训练6
试题算法训练 s01串
（原）torch的训练过程
2017多校训练1
pytorch训练模型

zl程序教程

当前栏目

LLM-2022：PaLM【参数量：5400亿（540B）】【用于训练的token数量：780B】【基于Pathways的大语言模型】

一、简介

相关文章