您现在的位置是：首页 > 其他

当前栏目

模型压缩技术：综述【模型蒸馏/Distillation；量化/Quantization；剪枝/Pruning；参数共享】

技术模型参数压缩共享综述量化剪枝

2023-09-27 14:20:41 时间

BERT 在很多 NLP 任务上都取得不错的效果，但是其模型体积与计算量都很大，而且现在出现了更多越来越大的模型，例如 roBERTa 和 GPT2。由于这些模型的太大，难以用于一些性能没那么好的机器上，也不能很好地用于实时性要求高的应用中。因此有不少针对 BERT 模型压缩的研究，其中模型蒸馏 Distillation 是一种比较好的解决方法，本文介绍两种基于模型蒸馏的 BERT 模型压缩方法。

在这里插入图片描述

上图展示了很多基于 Transformer 的模型，模型下方的数字对应了模型的参数数量，单位是百万，可以看到这些模型变得越来越大。这些模型的体积也限制了其在现实世界中的使用，因为各方面因素：

这种模型的训练花费大量的金钱，需要使用昂贵的 GPU 服务器才能提供大规模的服务。
模型太大导致 inference 的时间也变长，不能用于一些实时性要求高的任务中。
现在有不少机器学习任务需要运行在终端上，例如智能手机，这种情况也必须使用轻量级的模型。

基于以上的原因，不少研究开始针对 BERT 模型压缩进行，常见的模型压缩方法有以下几种：

模型蒸馏 Distillation，使用大模型的学到的知识训练小模型，从而让小模型具有大模型的泛化能力。
量化 Quantization，降低大模型的精度，减小模型。
剪枝 Pruning，去掉模型中作用比较小的连接。
参数共享，共享网络中部分参数，降低模型参数数量。

RoBERTa 和 ALBERT中介绍的 ALBERT 也是一种 BERT 压缩方法，主要是用了参数共享和矩阵分解的方法压缩 BERT，但是 ALBERT 只减少模型的参数，并不能减少其 inference 的时间。

两种使用模型蒸馏压缩 BERT 的算法，第一种是 DistilBERT，将 12 层的 BERT-base 模型蒸馏到 6 层的 BERT 模型；第二种是将 BERT 模型蒸馏到 BiLSTM 模型。

参考资料：
BERT 模型蒸馏 Distillation BERT
深度神经网络模型蒸馏Distillation
深度学习模型压缩方法（4）-----模型蒸馏（Distilling）与精细模型网络
 模型蒸馏（Model Distillation）
知识蒸馏的过程是怎样的？与迁移学习的区别在哪里？
模型蒸馏（Distil）及mnist实践
 BERT 模型蒸馏 Distillation BERT

猜你喜欢

android 在布局中动态添加控件
《Java编码指南：编写安全可靠程序的75条建议（英文版）》—— 6.3 在字符串中使用特殊字符
“隔屏有耳” 你的情趣隐私或许正被智能电视窃听
clipper库使用的一些心得
php file()函数
STM32MP157(实验四)——串口通信（串口打印）
web渗透测试----5、暴力破解漏洞
网页图表Highcharts实践教程之图表代码构成
JMeter学习-013-JMeter 逻辑控制器之-如果（If）控制器
《C++ 开发从入门到精通》——第1章　说真的，我们还要学习C++吗1.1　C++概述
BCH信道编译码
专家：网络安全法奠定网络法治化基础　需完善法律配套
【专解】Oracle中GROUP BY的用法
怎样提高hbase的入库性能
Linux下Qt打包的shell脚本
使用 Docker 高效搭建本地开发环境（详细教程）
【BZOJ3291】Alice与能源计划二分图最大匹配
QT_解决的问题

相关主题

数据库技术
测试技术体系
PHP缓存技术
Servlet 技术
技术框架
Vue技术9.4
技术设计
隔离技术
云栖技术之家
伪静态技术
做为技术
Servlet技术2
Servlet技术1
技术问答

zl程序教程

当前栏目

模型压缩技术：综述【模型蒸馏/Distillation；量化/Quantization；剪枝/Pruning；参数共享】

相关文章