使用预训练语言模型预测阶段:GPU、CPU性能差别【Pegasus】
2023-09-27 14:20:38 时间
一、Pegasus
1、使用CPU(用时: 17.92682433128357 秒)
# https://github.com/huggingface/transformers/blob/master/src/transformers/models/pegasus/modeling_pegasus.py
import time
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = torch.device("cuda")
tokenizer = AutoTokenizer.from_pretrained(
相关文章
- 30亿参数,华为云发布全球最大预训练模型,开启工业化AI开发新模式
- [凯圣王]碳水在身体内的去向/碳水前置后置的区别/碳水循环计划的简聊/训练前什么时间吃碳水
- LLM-2020:GPT-3【参数量:1750亿(175B)】【用于训练的token数量:500B】【OpenAI】
- GNN-图卷积模型-直推式-2016:GCN【消息传递(前向传播):聚合函数+更新函数】【聚合函数:mean(邻域所有节点取平均值)】【训练更新函数的参数】【空域+频域】【同质图】
- Bert在fine-tune训练时的技巧:①冻结部分层参数、②weight-decay (L2正则化)、③warmup_proportion、④
- NLP-预训练模型-2019-NLG:MASS【Bert+GPT的泛化Seq2Seq模型】【文本片段中被掩码的部分替换为相同数量的[MASK]】
- AI比赛-推荐系统(一)-新闻推荐02:训练item词向量【每篇新闻文章对应一个词向量】【word2vec:将每个用户点击的新闻文章序列作为输入(类似文本序列),训练出每篇文章的向量表示】【天池】
- CV-CNN-2014:VGG模型【重复堆叠3x3卷积增加网络深度】【设计思想:更深的网络有助于性能的提升;更深的网络不好训练,容易过拟合,所以采用小卷积核】【11层、13层、16层、19层】
- shell习题训练
- Facebook开源PyTorch版本fairseq翻译模型,训练速度提高50%
- 基于Theano的深度学习框架keras及配合SVM训练模型
- NLP涉及技术原理和应用简单讲解【二】:paddle(分布式训练、AMP自动混合精度训练、模型量化、模型性能分析)
- 【Python & mxnet & gluon】基于 gluon 的自定义线性回归(创建数据集 || 数据读取 || 初始化模型参数 || 定义模型 损失函数 || 优化 || 训练)
- 第十四届蓝桥杯三月真题刷题训练——第 10 天