LLM-2022:PaLM【参数量:5400亿(540B)】【用于训练的token数量:780B】【基于Pathways的大语言模型】
2023-09-27 14:20:37 时间
原文:PaLM: Scaling Language Modeling with Pathways
作者: ∗ Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma (Google)
一、简介
大型语言模型已被证明在各种自然语言任务中使用few-shot学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对few-shot学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways语言模型(PaLM)。
我们使用Pathways在6144个TPU v4芯片上训练PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上取得最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了微调的最先进水平,并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进,这意味着当我们扩展到最大的模型时,性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力,我们在一系列的基准测试中证明了这一点。我们还对偏差和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆的程度。最后,我们讨论了与大型语言模型有关的伦理考虑,并讨论了
相关文章
- LLM-202210:GLM【开源双语预训练语言模型】
- NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】
- AI-蛋白质-序列设计-从头设计-基于AI-2023:ProGen【基于大语言模型】【生物界的ChatGPT】【从功能到氨基酸序列的预测】【训练数据:2.8亿条蛋白质序列】【参数量:12亿】
- PyTorch训练(二):DP(DataParallel)【“单机多卡”训练模式】【简单方便、速度慢、GPU 负载不均衡】【不推荐使用DP,推荐使用DDP】[
- 如何利用深度学习技术训练聊天机器人语言模型?
- 有趣的打字训练
- NLP中的预训练语言模型(五)—— ELECTRA
- C.4.1快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化
- tesseract ocr训练 pt验证码
- Python机器学习:训练Tesseract
- fpga实操训练(基础)
- 打造AI训练基础平台!Unity推出Machine Learning Agents
- 从BERT到ROBERTA:预训练语言模型的优化之路