您现在的位置是：首页 > 工具

当前栏目

英伟达：超高的性能表现……足以支持AI应用

应用性能 AI 支持表现伟达超高

2023-09-27 14:23:55 时间

英伟达公司已经为AI应用设计出两款全新Tesla处理器，分别为P4与P40。

英伟达：超高的性能表现足以支持AI应用

这款16纳米FinFET GPU采用英伟达Pascal架构，且延续今年6月发布的P100命名方式。其中P4为单高、单长PCIe卡，用于向外扩展服务器；而更为强大的P40则着眼于向上扩展设备。

这一新组合主要用于推理工作，即在硬件当中内置一套经过训练的AI模型、部分对应软件以及类似摄像头视频或者麦克风音频的输入数据，并由其据此提供决策、语音到文本转换以及对象分类等功能。

如今我们的深度学习模型已经发展到新的阶段——即利用大规模训练数据立足强大系统方可起效。但在另一方面，推理功能则需要奋起直追：我们必须能够利用数字运算处理器向复杂的神经网络推送数据，并借此进行实时决策。

这对于英特尔、英伟达及其它芯片厂商而言不啻为一个好消息，这意味着他们能够出售更多高端芯片以实现训练及推理。但坏消息在于，这意味着将有更多数据被发送至云端，并在那里进行处理，而后将结果发送回我们的手机、平板设备乃至其它小型计算平台。如此一来，我们需要高度依靠稳定的互联网连接方案。

英伟达公司高级产品经理Roy Kim告诉我们，未来的发展趋势将在于“混合”方案，即在设备之上建立低精度模型，从而保证决策可立即完成，而后再决定是否利用更为强大的后台处理资源返回更加精确的处理结果。目前最先进的图像识别系统拥有超过150层神经元，Kim指出，因此我们目前更需要在推理层面投入研究精力。

有什么新内容？

为了最大限度提升推理通量，我们的物联网云端个人助手不会在处理问题方面耗费太多时间。英伟达公司已经向其Pascal架构中添加了两条新指令：IDP2A与IDP4A。二者能够执行双及四元素8位矢量点积计算，并借此累加为32位。

基本上，数据科学家们认为8位精度已经足以支撑神经网络，；这意味着如果需要进一步提升精度以获得16位或者32位值，则可再经由GPU完成相关运算。事实上，当处理作为深层感知输入数据的信息时，我们并不需要太高的计算精度。

谷歌公司的TensorFlow加速ASIC同样使用8位精度进行推理，而英特尔与AMD芯片亦可在8位矢量计算领域带来出色的性能表现。

这是什么原理？

矢量点产品已经成为人工神经网络的核心所在。目前全部热门AI的核心皆为数学方程串，即从输入数据中或者普通英文中提取特性，或者从传感器及摄像头端获取有价值信息等，而后再利用软件对其进行处理。我们可以通过组合或者训练帮助网络接收数据流，而后通过不同加权机制对其进行分流，直到找出正确答案。这种加权机制贯穿整个训练过程，旨在检测输入数据的重要特性。

以下单个神经元示意图看起来非常复杂，但请相信我，并没有大家想象的那么可怕。首先我们在左侧获得从x1到xn的多个值，其经由n条路径向右推进。每个xi输入值都乘以其路径权重wi，而后再将这些乘积结果相加。这就是所谓点生成机制。在此之后，该加和会被引入一个阈值或者激活函数，输出结果则供网络中的下一感知体系进行使用。

英伟达：超高的性能表现足以支持AI应用

将其加以组合，我们就能够得到以下这套基本网络，其中包含2个输入结果，3个神经元与1个输出结果。

英伟达：超高的性能表现足以支持AI应用

让我们着眼于顶部神经元。其使用M输入值，将其乘以加权θ1，而后将结果添加至J再乘以θ2。由此得到的加和经由激活函数运行，并将结果交付至最右端的神经元。

因此如果忽略激活函数，那么顶端神经元的点生成输出结果为(Mxθ1) + (Jxθ2)。现在想象一下，如果这些变量各为8位整数，范围在-127到127之间，或者0到255之间。假设这些点生成运算可每秒执行47万亿次，且全部加和结果都能够提交至网络的下一阶段，那么这正是英伟达P40的定位所在。也正因为如此，英伟达公司才决定使用8位生成加速计算方案。

英伟达方面宣称，其P4能够在理想状态下每秒执行21.8万亿次8位整数运算，而P4在利用AlexaNet训练模型时，第瓦每秒图像分类数量可达到英特尔至强E5 CPU的“40倍”。

当然，这一切都要求我们的AI模型采用8位加权机制。这显然是一种非常高效的语音识别模型，同时亦可用于识别图像及完成其它类似的推理分类工作。

以下为Tesla GPU家族各产品的详尽规格数据，其中包括全新P4与P40：

P4与P40将于今年10月与11月分别开始销售。如果大家希望早点熟悉这类新方案，则可选择英伟达公司的Pascal Titan X显卡，其发布于今年7月且同样拥有44 TOPS的8位整数运算能力。P40基本上就是一款略微强化过的Titan X。

与此同时，英伟达方面还发布了TensorRT（一套运行于其硬件之上的推理引擎）外加Deepstream软件开发工具包，用于识别高分辨率（HEVC、VP9）视频中的人物与对象。

原文发布时间为：2016年9月14日

本文作者：孙博

本文来自云栖社区合作伙伴至顶网，了解相关信息可以关注至顶网。

英伟达研发主管：AI 是如何改进芯片设计的？在春季 GTC 会议上，英伟达首席科学家兼研究部高级副总裁 Bill Dally 介绍了英伟达研发机构的基本情况，以及当前一些优先事项的细节。Dally 今年将重点放在英伟达正在研发并使用的人工智能工具上，这是一种非常聪明的逆向营销。比如，英伟达就已经利用人工智能来提高 GPU 的设计效率。
别再用平均池化层了！Meta AI把注意力塞到池化层，性能立刻提升0.3（二）注意力机制这么好用，怎么不把它塞到卷积网络里？最近Meta AI的研究人员提出了一个基于注意力的池化层，仅仅把平均池化层替换掉，就能获得+0.3%的性能提升！
别再用平均池化层了！Meta AI把注意力塞到池化层，性能立刻提升0.3 注意力机制这么好用，怎么不把它塞到卷积网络里？最近Meta AI的研究人员提出了一个基于注意力的池化层，仅仅把平均池化层替换掉，就能获得+0.3%的性能提升！
跟着英伟达亚太区副总裁潘迪一睹GTC2021：老黄回来了，还带来了AI三巨头（二） 4月13日，英伟达GTC 2021即将如期举行，今年，英伟达CEO黄仁勋将现身主题演讲，他会讲什么呢？我们先从英伟达亚太区副总裁潘迪先生最近的分享一睹为快。
跟着英伟达亚太区副总裁潘迪一睹GTC2021：老黄回来了，还带来了AI三巨头（一） 4月13日，英伟达GTC 2021即将如期举行，今年，英伟达CEO黄仁勋将现身主题演讲，他会讲什么呢？我们先从英伟达亚太区副总裁潘迪先生最近的分享一睹为快。
英特尔为决战英伟达这次真的拼了！20亿美元收购AI芯片公司Habana Labs 英特尔正式宣布以20亿美元收购AI芯片公司Habana Labs。这是继153亿美元收购Mobileye、3.5亿美元收购Nervana之后，英特尔第三次收购大型AI初创公司。这一举动引发业内人士热议。
英伟达企业型AI服务升级：AI LaunchPad计划开放软硬件即时访问，Fleet Command平台助力边缘AI管理当今时代，AI 无处不在，对于企业来说更是如此。企业有时想要在混合云业务中加入 AI 功能，有时又想要发挥边缘计算的效用，但自身 AI 基础设施无法提供支持怎么办呢？英伟达新推出的面向企业的即时 AI 基础设施 AI LaunchPad 以及 20 年提出、现已全面上市的托管型边缘 AI 服务平台 Fleet Command 将加速其他企业的 AI 开发和部署，扩展他们的边缘 AI 服务。

猜你喜欢

Csharp: Detect Mobile Browsers
【文学】飞狐峪
Django使用JavaScript实现JWT用户登陆、登出
vue实战入门进阶篇五：vue+elementui实现网站后台-首页界面实现
Linux启动/停止/重启Mysql数据库的方法
适配器模式
2019年1+X 证书 Web 前端开发中级理论考试——易错题、陌生但又会考到的题目原题+答案（文章含五套题的内容）
孔雀翎----《Programming C# 》中国版文章4版
Leetcode题解（4）：L216/Combination Sum III
性能测试Jmeter脚本生成工具实践
java字典序排序
环信集成
基于C++实现（控制台）学生成绩管理系统【100010010】
电商微信批量添加客户3 python版
Docker es
Thread 1 cannot allocate new log的问题分析
文件路径取byte数据
基于C语言实现（控制台）学生信息管理系统【100010731】
看到你还在用Maven，Gradle难道不香吗？
nginx 服务器重启命令，关闭（转）
高校/中职大数据实验室建设方案
docker安装配置nginx
宝塔面板上行下行总发送总接收是什么意思

相关主题

Java注解与应用
开发Web应用
宏应用
H5快应用国际化
单页面应用
栈与栈的应用
栈的应用
cookie的应用
python模块应用
32、rocketMq应用

zl程序教程

当前栏目

英伟达：超高的性能表现……足以支持AI应用

相关文章