您现在的位置是：首页 > 硬件

当前栏目

谈谈含光800芯片的设计缺点与野闻

芯片设计谈谈缺点 800

2023-09-14 09:09:27 时间

两个月前，含光800的评论不绝于耳，甚嚣尘上的是关于它霸道的算力参数以及继玄铁SoC之后的紧密发布；本篇讨论和分享一些野闻－－更多在关注这颗60*60的推理芯片的设计不足；

目前这个百亿密度的设计其中指令架构是值得探究的（170亿），没有详实介绍，有人概括为IDC侧的多模态多任务…。

然而就量产流片/商业化的角度，TSMC的朋友佐证目前yield仅个位数（2%），250MB SRAM，GUC做的外包，项目管理很是惨烈…，上线之初的良率指引是8%，然而想必这个250M的SRAM的修复逻辑（repair logic）平头哥团队并没做，于是结果变成了2%了…，设想700mm2的die 60✘60封装，250MB SRAM而没有repair逻辑的情况（听闻）。

平头哥几位主任设计师早年是从S3 GPU团队入行，一贯做前端设计，对后道的工艺制造感念不深，所以也没用DRAM，如今堆了个大头佛：），野闻暂且不去调侃，但unproven的团队，第一步就做60x60是欠妥的，兴许选择chiplets路径也许还能成事（小die设计，然后用die to die link），但先进封装的经验则需要慢慢练了，但至少可以得到台厂的很多指导。

诚然可以设想含光800更像是S3团队入行那些年偷师的GPU+MME原型设计，再加一些新电路，芯片上必须堆砌巨多的SRAM以保证运算速度，然后片上I/O就变得超复杂了，摊子越铺越大，这就170亿门了，60%以上的SRAM。这个设计写在PPT里尚可，敢于流片还是需要气魄的。以及，用超多SRAM也说明了片上网络NoC设计不足，另外，SRAM有个硬伤，设计上它是不太方便随制程shrink（当然单cell是可以非常标准shrink的，一旦布线就有取舍了，道理跟ddr/gddr/hbm的类比一样…，堆多了，或者为提速，就要增加走线面积，整体利用率可能还下降了，而SRAM昂贵，die上面的晶体管利用率低，经济效益差）；这也是含光800跟NV产品的本质区别之一，一个不惜代价堆dark silicon，一个拼命提高利用率（Nvidia的800mm2的旗舰也就30MB SRAM）。遥想起当年老展讯的设计师，当年他们能存活下来，全靠一个一个晶体管审核经济效益才挣到钱。【BTW：猜想CFET这样的栅极构型也许对SRAM布局有帮助（就是nMOS极和pMOS极垂直堆叠在彼此顶部，进一步减小单元面积，扩大沟道宽度，推动标准单元到4T及以下，加上更高的驱动电流）】

其实，有个简单的外行适用判断，NVidia这么卓越，为何不把图形渲染部分劈开，单开NPU的SKU呢。不过NV可不屑于跟这些700mm2的比面积和sram size，因为NV早算过经济帐，裸AI算力芯片是要亏的，没有出货量。

就在发布会后两月内，阿里内部宣布不量产，然而GUC做阿里生意的台湾人由于未能拿到Loyalty已经离职，随后在酒局中声称被忽悠了量产规模，因此他承诺了很低的NRE，成本亏了不少，在上海喝了酒后便离职回台湾了。

一次听GUC跟中天微某sir算了一笔账，12寸晶圆，700平方毫米的芯片能切出来75颗，那么假如2%的良率，也就是一个die上只有一两颗好的，那么，一块晶圆6000美金，一块晶圆一两颗好的？

总之，有更加进步的设计尝试是值得高兴的，虽然有些小团队的BP都是孤芳自赏的walled garden.

BTW：长期关注国内fabless，据说芯原VeriSilicon的GPU很好，带FP16的，WaveComputing签license了！

猜你喜欢

[Spring] 声明Bean
R语言使用RMySQL连接及读写Mysql数据库测试通过
Struts中ModelDriven的使用
jetson nano 实现车牌识别
【Python 04】Python开发环境搭建
基于JAVA实现的WEB端UI自动化 - WebDriver框架篇 - 内部框架及UI自动化测试框架思维导图
OD工具使用-逆向TraceMe.exe
Activity生命周期方法的调用顺序project与測试日志
MongoDB Wiredtiger存储引擎实现原理——Copy on write的方式管理修改操作，Btree cache
SAP Spartacus CMSService 的调用栈以及 meta 标签的生成过程
Atitit.技术管理者要不要自己做开发？？
Session.Abandon()的用法
杂记什么是NFT？

相关主题

IC芯片
驱动芯片
芯片介绍
芯片总结
吹芯片
2.4G芯片
70925----------电源芯片

zl程序教程

当前栏目

谈谈含光800芯片的设计缺点与野闻

相关文章