SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型
机器之心最新一期线上分享邀请到了电子科技大学朱芮捷,为大家分享他们近期工作 SpikeGPT。
现有的语言模型如 ChatGPT 等都需要大量的计算资源和维护成本,而脉冲神经网络则可以利用稀疏和事件驱动的激活来降低模型推理的计算开销。脉冲神经网络是一种模仿大脑信息处理方式的算法,与传统的深度学习神经网络不同的是,神经元只有在被激活时才会发出脉冲信号。然而,脉冲神经网络在模型训练方面也面临着挑战,很多针对非脉冲神经网络的优化策略难以应用于脉冲神经网络,导致它们在语言生成任务上的性能落后于现代深度学习。
SpikeGPT 借鉴 RWKV 语言模型,用纯二进制的脉冲激活单元替换了传统的深度学习激活单元,并修改了 Transformer 模块,用流式输入代替多头自注意力机制,以减少随序列长度增加的二次计算复杂度。在三种参数规模(45M、125M 和 260M)下进行了实验,其中 260M 是目前最大的可反向传播训练的脉冲神经网络。实验结果与进一步推断表明,在维持相似性能的情况下,SpikeGPT 在能够利用稀疏、事件驱动激活的神经形态硬件上,比相似的深度学习模型节省了约 22 倍的能耗。
分享主题:SpikeGPT:使用脉冲神经网络的生成式语言模型
分享嘉宾:朱芮捷,电子科技大学大四本科生,加州大学圣克鲁兹分校准博士生,主要研究兴趣为脉冲神经网络,为目前两大主流脉冲神经网络框架snntorch与SpikingJelly的贡献者。
分享摘要:本次分享将主要专注于脉冲神经网络、SpikeGPT与RWKV上,尝试为此类RNN的生成式方法梳理一条脉络。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/spikegpt
2)论文链接:
https://arxiv.org/abs/2302.13939v2
3)代码仓库:
https://github.com/ridgerchu/SpikeGPT
4)延伸阅读:
https://news.ucsc.edu/2023/03/eshraghian-spikegpt.html
加群看直播
直播间:关注机器之心机动组视频号,北京时间 4 月 15 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「SpikeGPT」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。
相关文章
- Java项目毕业设计:基于springboot+vue的电影视频网站系统「建议收藏」
- 彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-登录与图形验证码(captcha)EP06
- CentOS上部署自己的DotNet项目
- eclipse导入maven项目的设置
- c 语言加壳项目,C 加壳工具,快速完成加密保护
- 3.Go语言项目操作Redis数据实践
- 5.Go语言项目操作之Kafka日志收集项目实践
- 如何避免项目延期
- 浅谈BSC币安链DAPP项目模式系统开发(成熟就语言框架)
- 趁这个项目还不卷,快试试!
- 官宣:计算中间件 Apache Linkis 正式毕业成为 Apache 顶级项目
- 六西格玛项目与QC项目的不同之处在哪?
- 尚医通-项目概述
- 有哪些值得学习的大型 React 开源项目?
- 导入若依项目数据库脚本到mysql数据库
- MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型
- 我用 Rust 改写了自己的C++项目:这两个语言都很折磨人!
- DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索
- 【C 语言】C 项目开发代码规范 ( 形参合法性判断 | 函数返回值局部变量 | 函数中不用全局变量 | 函数中使用局部变量接收形参 | 函数返回值 | 形参作返回值 | 形参返回值处理 )
- 不要让框架控制你的项目,过度依赖框架会害了你
- GO语言——IO项目
- 2023年4月最强AI开源项目合集
- 向已存在的项目文件夹中添加git地址详解程序员
- Go语言常见大型Web项目分层(MVC架构)
- 部署项目至Linux系统:一种新模式(项目发布到linux)
- 只造手机不过瘾!富士康加速推进电动车项目
- Linux环境下如何创建C语言项目(linux 创建c语言)
- 用Redis管理项目让效率大幅提升(怎么在项目中用redis)
- 电商项目推动的利器Redis的用武之地(电商项目redis的应用)
- Ether Universe项目评测:第四代跨链技术实现“异链”Tokens直接交换
- Thinkphp搭建包括JS多语言的多语言项目实现方法
- 推荐几个开源的微信开发项目