GTC China 2020 Keynote Spotlights NVIDIA Technology and Research

Show Video

我是一名探索者探寻我们宇宙的起源并规划出通往其他星球的更安全路径我是一名好帮手推动我们一步一步前行并为每一种情感发声我爱你我爱你我是一名治疗师为未来的医学建模与时间赛跑，在不可能中找到新的可能我是一名梦想者探索失传已久的杰作并在遥远的星系中寻找新的奇遇我是一名建造者在一切建造过程中追求尽善尽美我甚至是你正在观看的影片故事的讲述者和音乐的作曲家当世界面临最严峻的挑战时我赋予力量让我们共渡难关我是 AI 大家好，欢迎来到 GTC 中国大会首先，向大家做一下自我介绍，我是 NVIDIA 首席科学家兼 NVIDIA 研究院高级副总裁 Bill Dally 我带领 NVIDIA 研究实验室与我们的产品团队合作，将研究院研发的技术应用于产品之中让我们的产品不断改进今天，我将向大家介绍一些我们正在研发的先进技术我们打造了性能非凡的高性能计算设备，致力于解决世界上极为苛刻的计算问题所有这一切的基础都是硬件，今天要讲的是 Ampere 这是一个 Ampere A100 SXM 模块。它具有处理海量计算的性能我将花几分钟的时间来深入介绍一些细节。借助这一模块我们可以扩展 Ampere 的强大功能，解决非常苛刻的计算问题甚至是应用于我们面向嵌入式产品的 Jetson 产品线如果你想扩展，我们可以取 8 个这样的 Ampere 将它们放入 DGX 机箱中，就是你在屏幕上看到的这个金色机箱我们可以在机架中安装多个 DGX 机箱与 Mellanox 交换机，去打造那些世界上性能最强大的计算机硬件本身并不能解决世界上的难题它需要借助软件来集中这种强大的计算能力应对苛刻的问题因此为了实现这一目标，我们投入了大量精力来开发软件套件一切都要从 CUDA 说起，这是我们之前，在斯坦福进行流处理研究的工作成果自 2006 年以来，人们一直在使用 CUDA 来充分利用 GPU 的强大功能以实现物尽其用为了方便人们在 CUDA 上构建应用程序，我们提供了一整套的开发库如果你在工作中需要使用线性代数，可以使用我们的 cuBLAS 和 cuSPARSE 如果你的工作涉及频谱方法，我们有 cuFFT，同时我们有一个自适应多重网格软件包对于深度学习，我们有 cuDNN 和 TensorRT，简化了深度学习高性能实现的过程除此之外，我们还在多个垂直行业中构建了应用程序当然，图形是我们最重要的领域之一，我将向大家介绍一些我们在图形领域所取得的成果我们有大量的软件可用来支持人工智能包括用于自然语言处理和推荐系统的软件在医疗健康领域，我们推出了 Clara 软件包，它应用广泛，从我们的 Parabricks 基因组测序分析到图像分析，再到挖掘医学论文数据库等都可以使用我们还提供了用于智能视频分析的软件包你可以使用它来获取视频流，并根据所见得出结论此外，我们还有一个适用于自动驾驶汽车的完整软件包从在数据中心内组织数据集训练到在车辆中进行自主部署借助我们的 Isaac 包，你可以轻松地基于 Jetson 部署机器人系统现在，我们来谈谈 Ampere 吧。这是一个令人惊叹的设备它不仅是世界最大的 7 纳米芯片，具有 540 亿个晶体管而且还具有许多创新功能，相比上一代产品它的功能更加强大。这是我们的第 3 代 Tensor Core 我们将这款特殊硬件集成到 GPU 中，以加速深度学习在这一代核心中，我们增加了对新数据类型的支持。TensorFLOAT 32 解决了曾经在 BFLOAT16 和 FP16 之间进行数据类型选择的问题 BFLOAT16 具有较多的指数位，但是尾数位很少，因此在训练很多网络时会出现精度不足的情况而 FP16 恰恰相反，它有较多的尾数位，它精度高，但动态范围有限 TF32 集二者的优点于一身。它有大量的指数位精度高，迄今为止，它可以在我们应用的每一个网络上进行训练。使用 TF32 数据类型，我们可以获得巨大的计算性能提升最令我兴奋的是 Ampere 破解了如何利用神经网络的稀疏性来获得更好的性能我等一下会用一张完整的幻灯片来讲述 Ampere 是一个功能强大的计算设备，如果你需要缩减它的计算能力，我们的 MIG（多实例 GPU）技术可以将一个 A100 分割为 7 个独立的 GPU 以便每个 GPU 都能运行各自的任务如果你需要扩展 Ampere 来解决更大规模的问题，我们的第三代 NVLink 和 NVSwitch 不失为更好的选择，它具有相较于上一代产品两倍的带宽 GPU 间的数据传输带宽可达到 600 GB/s 以下是关于 Ampere 的一些详细信息。我不会在这里列举所有的数字，但对于我而言重要的是它在 3 种数据类型上的性能以及在 3 种不同类型的应用程序中的性能对于高性能计算，Ampere 具有双精度 Tenser Core；对于 FP64 运算我们可以在执行矩阵乘法运算时维持 19.5 teraFLOPS 的性能对于使用全新 TensorFLOAT 32 数据类型进行的深度学习训练我们可以提供 156 teraFLOPS 的性能。对于训练神经网络来说，这是一个很高的性能对于深度学习推理，使用 Int8，我们可以提供 1.25 petaops 如果你想了解稀疏性，我稍后会讲到如果你能使用 Int4 解决自己的问题在很多网络中我们可以提供 2.5 petaops 的推理性能这是一个极高的性能接下来，我来简单说一下稀疏性。事实证明，大多数神经网络都是可以修剪的在 2015 年的 NeurIPS 大会上，我就此话题发表过一篇论文我在论文中证明了可以对神经网络进行修剪，切断神经元之间 70% 到 90% 的连接这意味着可以将网络中 70% 到 90% 的权重设置为零，而这并不会影响精度这种压缩的效果立竿见影。既然这些权重都可以设置为零，那么你就无需存储它们这样你就可以释放内存，获取更多内存容量，并增加连接的带宽但到目前为止，人们一直无法利用稀疏性来获得更好的运算能力这是我们过去无法充分利用的，等待着我们去进一探索的地方而现在，我们可以借助 Ampere 来使用它，Ampere 通过利用结构化稀疏性（允许 4 个权重中的 2 个为 0）解决了这一问题我们拥有一种常规模式，可让硬件轻松利用稀疏性，而不会因不规则性造成的开销让稀疏性带来的增益化为乌有因此，对于矩阵乘法指令，一旦将权重稀疏为 2/4 模式，就会实现双倍的性能即使矩阵乘法只是整个应用场景（例如 BERT 巨大的推理自然语言处理基准测试）的一部分我们也能达到 1.5 倍的性能，在深度学习架构中，这是一个巨大飞跃我们使用这些 A100，并将 8 个 A100 与大量 SSD 存储、大量 RAM 和 9 个 Mellanox ConnectX-6 NIC 组装在一起构建一台设备这将组成一个性能出众的计算平台，该平台的性能将是其中一个 GPU 的 8 倍由于每个 GPU 都能达到接近 20 teraFLOPS 的双精度运算能力因此整体可达接近 160 teraFLOPS 我们可以将部分设备放入机柜中这就构成了 DGX POD 该机柜还包括了 Mellanox 交换机，用于连接 NIC 并实现这些 DGX 之间的互连 DGX POD 的出众之处在于我们解决了集成问题我们已确保其中的每个硬件都能协同工作，且所有配置正确无误因此，如果你购买 DGX POD，接上电源它只需要一天时间便能与我们为你提供的所有软件容器一起运行无需进行调试，也无需设法弄清楚如何正确配置你可以将 DGX POD 扩展至我们称之为的 DGX SuperPOD 事实上，我们使用 280 个 DGX A100 构建了一个非常庞大的 DGX SuperPOD，它拥有 2240 个独立 GPU 这就是我们的 Selene 超级计算机。在 Top 500 榜单中它位列第 5 并且在 Green 500 榜单中，它同样排名第 5 它是世界上速度最快的工业系统，也是 Top 500 中速度最快的工业系统 Ampere 技术的真正优势不仅在于，它在深度学习方面表现出色还在于它在高性能计算方面也有着卓著成效，而且还简化了 AI 与科学应用的结合你无需在一台计算机上做一部分工作，再到另外一台计算机上做另一部分工作，使用一台计算机就可以完成两者事实上，在最近于 11 月举行的超级计算大会上公布的 Top 500 榜单中采用 NVIDIA 技术的计算机在前 10 名中占了 8 席我刚才展示的 Selene，在 Top 500 和 Green 500 中都排名第 5 在 Green 500 中，排名第一的是另外一台 DGX SuperPOD 在学术计算机领域，我们也排名第一，在工业计算机领域，我们的 Selene同样排名第一在美国和中国都排名第一的太湖之光使用了 Mellanox 网络，而在欧洲，Juelich 也是第一在所有这些荣誉中，其实最让我自豪的是，在 Green 500 中位列榜首原因在于，你可以通过投入更多资金来跻身 Top 500 只要配置更多的节点，使用带宽更高的网络来连接这些节点，就能获得更高的 Linpack 性能分数但要想在 Green 500 中提升排名，就必须要提高效率只有采用更上乘的技术、更强大的架构、更出色的电路设计才能在 Green 500 排名中提高名次在 Green 500 中，排名第一的是一台NVIDIA 计算机，这让我感到非常自豪因为严格来说，这是对我们技术的一种衡量，而不是开张大额支票就能做到的对于 AI 应用程序，目前很多人都在构建专门的 AI 加速器并且他们宣称这些加速器将比通用型 GPU 更高效其实并非如此，下面这个图表会告诉你原因它展示了我们的深度学习架构在诸多方面的发展演进早在 Kepler 时代，我们进行深度学习最常用的指令是半精度浮点乘加若将它归一化为技术，将所有这些都进行相同的比较大约是 1.5 皮焦耳的能量提取指令并对其进行解码后与执行该指令相关的所有开销约为 30 皮焦耳开销超过了有效载荷我们在开销上耗费的能量是有效载荷的 20 倍然后在 Pascal 时代，我们改进技术，采用半精度点积运算指令该指令对包含 4 个单元的向量执行点积运算现在，我们要做 8 个算术运算，4 个乘法运算 4 个加法运算。6 皮焦耳的能量，开销仅为 5 倍虽然依旧不理想，但结果好多了从 Volta 代系开始，我们引入了 Tensor Core Tensor Core 的实际作用是为矩阵乘法累加提供专门的指令在 Volta 中，我们采用半精度矩阵乘法累加 (HMMA)，现在一条指令所消耗的能量实际执行了 128 次浮点运算，因此完全可以摊还开销这样一来，开销只有 22%，我们在 Turing 中添加 IMMA 指令后现在可以执行 1024 次 int8 运算有效负载所需的能量为 160 皮焦耳，开销仅为 16% 这意味着，如果你构建一个不具有任何可编程性的专用加速器，你将获得 16% 的优势但也会面临巨大的劣势神经网络以惊人的速度在发展，GPU 的可编程性使你可以紧跟步伐新模型层出不穷，训练方法日益改善要利用这些资源，你需要一台可编程性很强的设备 GPU 为你提供了一个完全可编程的平台通过构建 Tensor Core，使用专门的指令分摊开销我们可以为你提供与专用加速器相比几乎无损的可编程性这个图表从不同的角度展示了我前面的表中的一小部分进展此图表展示了从 2012 年的 Kepler ，一直到今年 5 月份的 Ampere A100 单芯片推理性能的变化情况我们看到，在这 8 年里，我们将单芯片推理性能提高了 317 倍这条曲线已经被业内称为著名的“黄氏定律”，即推理性能每年翻倍实际上，我们的推理性能每年都要增加一倍以上部分原因在于我在上一张幻灯片中提到的 Tensor Core 的改进更优化的电路设计和架构。制程技术所发挥的作用不大此图表上只有 3 代制程技术最开始的是 Kepler 架构使用的 28 纳米，中间是 16 纳米，最近 Ampere 是 7 纳米制程技术中的这些跨越对于 317 倍这一趋势作用并不大总体上所发挥的提升作用可能不到 2 倍。这一提升主要得益于架构的改进在摩尔定律消失后我们幸好还有“黄氏定律”来不断提高计算性能因为我们未来需要利用更高的计算性能来完成许多工作现在，如果你想比较一下人们在深度学习性能方面的表现可以使用我们称之为 MLPerf 的基准测试机器学习硬件领域中的大部分参与者一起，商定了一组用于比较推理和训练性能的公平规则需要定期提交结果进行验证，每个参与者都要提交结果然后结果会发布到 MLPerf 网站上这里，我向大家展示的是最新 MLPerf 训练基准测试的结果我们看到 NVIDIA 横扫所有类别我们不断在这项基准测试中获胜实际上，我们最大的竞争对手是我们的上一代产品这里，我们将所有的数据按 Volta V100 为基准进行比较在深度学习方面，Ampere 的速度要快 2.5 倍

尤其是在那些真正重要的领域，比如一些大型自然语言模型和推荐系统速度提高 2.5 倍大部分竞争对手甚至没有上榜，而且榜单上没有一家初创公司仅有的另外两个竞争对手是 Google 的 TPU v3 以及华为尽管 TPU v3 出现在几个基准测试中，但完败于 Ampere 而华为只出现在了图像分类基准测试类别也被 A100 以 2 倍的性能击败 MLPerf 基准测试分为训练部分和推理部分，训练部分就是我刚才向大家介绍的在推理部分，NVIDIA 再次横扫所有类别 MLPerf 的推理部分本身分为数据中心推理和边缘推理类别在数据中心推理中，我们最大的竞争对手是我们自己，并且这里的差距也很大与我们之前的 AI 推理解决方案 Turing T4 相比而言在所有这些基准测试中，A100 的速度都提高了 6 倍到 8 倍这里出现的竞争对手只有 Intel 和 Xilinx，在所有这些比较类别中，它们实际上都被 T4 打败了。Ampere 的性能则直接碾压这两个竞争对手这里没有一家初创公司 – 我们关注了众多的初创公司他们都声称对推理领域有更好的解决方案如果他们有更好的解决方案，他们应该在 MLPerf 上展示出来，但他们并没有这样做 MLPerf 推理基准测试的另一个方面是边缘推理基准测试边缘推理基准测试适用于边缘服务器和嵌入式设备此处显示的是 A100、T4，以及使用 Tegra 芯片的 Jetson AGX Xavier 的性能数字在这里，大家可以看到 NVIDIA 再次横扫所有类别 Centaur 亮相，并且击败了 Xavier 和其中几款产品但是，即使是与 Centaur 相比，T4 和 A100 的性能也更为强大如我之前所说，我们的软件包专注于通过 NVIDIA GPU 架构的强大功能来解决感兴趣的难题 NVIDIA 致力于解决的其中一个重要难题是计算机图形我们是一家成立了很长时间的图形公司你们当中许多人都会观看电影故事片，影片中有一些部分是使用计算机图形和 CGI 制作的你会对这些逼真的画面留下深刻的印象这种离线的计算机图形通常是这样完成通过使用一种称为基于物理性质的路径追踪渲染技术对每个像素投射数万条光线，在渲染农场中花费数小时的时间生成每一帧我们最近有了许多创新能够以每秒 60 帧或更快的速度实时处理照片级渲染画面请观看这部影片注意灯亮起时，会在地面上投射许多光点，并从路径中的物体投射出逼真的阴影阴影在适当的位置显得更柔和每个弹珠都有反射影像，有些显示了反射出大理石和镜面高光的物体有些显示了光线在相机和光线变化时的位移当这些发光的弹珠滚下来时，它们以一种逼真的方式将光线投射到地板上在这里我们可以看到，当场景中的灯光移动时阴影会相应地移动，并且有适当的柔和的阴影这些阴影的边缘反映了从物体到它投射的表面的距离这是一张逼真的照片，它非常接近你在影片中看到的画面但这是在单个 NVIDIA GPU 上以每秒 60 帧的速度渲染的效果我们来看看如何以每秒 60 帧的速率来实现近乎真实的渲染效果这就要用到一些我非常自豪的技术，因为这些技术是在 NVIDIA 的研究实验室中开发出来的首先是我们称之为 RTXDI 的技术即直接照明这张图像实际上显示了事物过去的样子，传统的图形在直接照明下的显示效果你在这里可以看到许多发射源，这是一些小型的圣诞灯但这些圣诞灯不会在相邻表面上投射光线，它们不会投射出阴影看起来不太对劲这是一种错误的照明通过 RTXDI，每个光源都会将其光线投射到相邻的表面上因此，黄色光会使相邻表面显示为黄色，绿色光使相邻表面显示为绿色，依此类推投射逼真阴影的奥秘就在光线和物体表面之间我们可以使用这项技术支持多达数百万个光线选择一种名为“容器重要性采样”的技术，我们称之为 ReSTIR 此技术已在 SIGGRAPH 2020 中发布，并且现已在 NVIDIA 图形产品中使用，它可以产生美妙的直接照明这是问题的一半问题的另一半是间接照明当光线反射到表面然后又反射回你的眼睛或相机，RTXDI 会使得光线效果非常逼真但是，光线会多次，甚至无限次地反射为此，我们开发出了一种名为 RTXGI 的技术 RTXGI 使用光探测器将光线从一个表面投射到另一个表面我们将这些小球放入包含各个点的图像中以计算在该点看到的间接照明所以，会有无限次的反射一个表面将照亮另一个表面第二个表面再照亮第三个表面光线一直这样传递下去，不会漏掉任何表面如果一个非常明亮的房间旁边是一个非常黑暗的房间一些几乎没有差别的多边形不会让光线从这里的墙壁穿过这是以密封的方式进行的，这也是一个很好的多速率渲染例子因为间接光线不会以极快的速率进行变化，因此我们能够以每秒 60 帧的速率渲染场景，以每秒 60 帧的速率得到需要此速率的事情（例如可见光和阴影绘制），并计算以较低速率进行的间接照明，具体取决于可用的计算资源这是一项非常棒的技术你可以看到，在图像的上半部分间接照明效果非常逼真在这种情况下，几乎所有照明都是间接照明因为只有一点点光线是从窗子照射进来的场景底部几乎是黑暗的，因为如果没有间接照明，你看不到太多事物如果关闭纹理并仅在此处获取光照您甚至可以感受到更多事物你可以看到在应用间接照明后场景看起来有多么丰富另一项让我们能够以实时速率渲染更多内容的技术是 NVIDIA DLSS 或者深度学习超级采样 (Deep Learning Super Sampling) 这是一项不断发展演进的技术现在的版本为 DLSS 2.0，可提供比最初的 DLSS 1.0 更高的性能图中对此进行了说明首先以某个分辨率（例如 1440）开始处理图像我们将此图像输入到神经网络中，把它升级到 4K 然后为了完成这项工作我们采用了这张经过升级的图像并将它与在更高分辨率下实际渲染的真实数据（在本示例中为 16K）进行比较其中的误差会进入我们其中一个 DGX SuperPODs 训练神经网络的 loss 函数经过对数据集的特定迭代我们可以训练网络权重来以非常准确的方式生成升级的图像现在，实现这个目标有两个诀窍第一个诀窍是让它暂时稳定下来升级静态图像相对容易一些但是，如果只升级一系列静态图像而不考虑运动由于在图像之间所做的操作有些不一致你会得到大量失真的画面这会导致在视窗中弹出令人不愉快的事物帧与帧之间不一致的地方会出现蠕动的小虫类似的东西我们一直在努力解决暂时稳定性的问题我们通过这项技术获得了暂时非常稳定的视频另一件很难做好的事情就是让网络泛化我们已经能够做到这一点，我们可以训练一个神经网络让它在游戏的每个级别以及在多个游戏中发挥作用我们不必为每个游戏、每个级别或每个场景重新训练神经网络我们用一个神经网络来完成所有这些工作下面是所得到的结果左侧是原生 4K，右侧是已升级至 4K 的 1440 图像帧率在右上角显示你可以看到，我们不仅在更高的帧率下运行，在本例中是每秒 141 帧如果我们放大该角色背上的行李箱的话…… 我们能看到画质更好的图像更清晰。你可以在 DLSS 图像中看到比原生 4K 图像更多的细节这是一项很棒的技术我们可以获得更快的帧率和更高的画质那么，我们的最终发展方向是什么呢在 NVIDIA 研究中，我们正在努力提高渲染性能，以获得全动态的画质此外，我们还希望其与电影一样进行基于物理性质的路径追踪，但我们想要进行实时处理此图显示了我们对这一目标的愿景我们将从相机中投射光线，能够通过一定数量的镜面反射和折射（例如，通过此幻灯片左上角图像中的啤酒杯）进行反射然后，当我们遇到这种镜面反射时，我们将执行一些漫反射；在每次反射时使用我在谈论直接照明时所提到的 ReSTIR 算法进行多光线采样这将为我们提供极佳的直接照明之后，经过两次反射后（估计我们也只能完成两次了具体取决于我们运行的图形硬件）我们将停止其中一个 RTXGI 光探测器以获得非常精确的间接照明。同时，为了实现这一点，我们还采用了许多技术我谈论的是 RTXDI 和 GI，这两项技术可分别为你提供良好的直接照明和间接照明但你可以通过镜面反射和漫反射方式实现这些反射在这些中间路径中反射将会借助我们新的GPU 中的 RT Core 它大大加速了光线追踪，首次在实时图形中进行光线追踪成为可能另一项非常重要的技术是出色的降噪因为我们不能像拍电影那样，每个像素都发送 10000 条光线我们只需要每像素 1 到 10 条光线就够了这样形成的图像十分斑驳，其中会出现大量噪点就好像你以非常高的 ISO 进行拍照接下来，通过应用降噪和特定的深度学习降噪我们可以清理图像，提升其画质这是我们对计算机图形发展的近期展望就长期而言，我们希望由 AI 生成计算机图形实际上，你在左侧看到的人像并不是真人的图像，而是由神经网络生成的这些人根本不存在由于他们可以生成真实人像，因此还可以生成风格化人像，比如中间的帧画面他们可以生成动物、汽车、房间、任意场景的图像从长远来看，我们预计如果你想要制作出高质量图像你将使用适用于生成器网络的 AI，直接生成这些图像，而无需使用任何几何图形今天，这一切只不过刚刚开始，我们能够生成单一的物体、单人、单一汽车和单一的房间但我们还不能将它们完美地组合起来我们无法得到很好的光照和很好的交互效果但我们将会做到，并且最终由 AI 生成计算机图形图形的未来是 AI 事实上，几乎所有东西的未来都是 AI AI 将影响我们生活的方方面面，包括工作、娱乐和游戏的方式我们来谈谈 AI 如何发展到今天的形态当前的 AI 革命实际上是由 GPU 创造的如果你看一下深度神经网络，有 3 个关键组成部分在发挥作用算法，即深度神经网络本身训练数据，大型的数据集，有些需要进行标记以及运行所需的硬件这些算法自 20 世纪 80 年代便已出现深度神经网络，卷积神经网络，反向传播，随机梯度下降这些自 20 世纪 80 年代以来便已为人所知大型数据集早在 21 世纪初就已经出现了，比如 ImageNet 数据集但直到 2012 年 Alex Krizhevsky 开发出 AlexNet （一种基于 NVIDIA GPU 的深度神经网络）这场革命才真正开始在那一年里，他在 AlexNet 上获得的性能提升，比此前在 ImageNet 上 5 年的工作成果的总和还要多 GPU 成就了深度学习 GPU 也掌控着深度学习发展的进度看看这个图表，在从 AlexNet 到 ResNet 的短短几年中对计算性能的需求提高了一个数量级以上最近，如图表右侧所示，自然语言处理网络的发展速度更快，从 BERT 发展到 GPT-3 训练时间对 Peta 级别的算力要求（Petaflop * 天数）也越来越高人们可以构建的网络，在很大程度上，受到训练网络所能使用的 GPU 性能的限制他们想要构建更大的模型，并在更大的数据集上进行训练但是受限于在已有的 GPU 资源上在可接受的时间内可以训练到的程度我再给大家看一下黄氏定律（Jensen黄仁勋）的图我们正试图满足这一需求。通过每年将性能提升一倍，来推动神经网络的发展从而让人们构建更强大的网络，并在更强大的硬件上进行训练我们来看一种网络类型这是生成式对抗网络该网络由 Ian Goodfellow 于 2014 年开发这是一种合成图像的方法，其实，你可以使用这个方法合成任何内容它实际上是将两个神经网络一同训练在左侧，我们有一个生成器网络，生成器网络会使用一个随机数字我们将此变量称为隐变量其功能基本上是对隐空间进行采样，即一个待训练的分布空间它生成图像，这里有一个真实图像和图像的差距该图的右侧是判别器网络它是一个图像作为输入的神经网络，该输入可以是生成器生成的图像输入也可以是声音波形或者其他形式，取决于需要生成的模态这里有一个开关。训练的时候，你调节这个开关但判别器并不知道这个开关的方向它会去尝试从图像本身，来判断是真实图像还是由生成器生成的图像通过将这两个网络一起训练，判别器就能很好地判断出真实的图像是什么为了骗过判别器，生成器在生成真实图像方面就变得非常出色生成器将根据你用来训练这一对网络的真实图像数据集，生成接近真实的图像它真正做的是，学习在这个训练集中的图像的一个分布自从 Ian Goodfellow 最初的工作成果发布以来，该领域取得了许多进展其中大部分是由 NVIDIA 实现的，我们已经取得了一些非常重要的进展多年前，我们开发了“渐进式 GAN”(ProGAN) 通过一个系统的过程来训练这些网络，我们从低分辨率网络开始训练最初是 4x4 像素，然后是 8x8，最终高达 1024x1024 像素通过先运行低分辨率，然后再转到高分辨率，我们便能够取得进展过去，在我们推出 ProGAN 之前，人们无法使用 GAN 生成清晰的高分辨率图像 ProGAN 是使之成为可能的突破性进步最近，我们开发了 StyleGAN，此图的右侧的部分我们将该隐变量输入其自己的神经网络中然后神经网络分解该变量，并将其中的不同部分输入到生成器网络的不同层级中如此一来，我们便可在不同尺度、不同大小下独立控制各个特征，这样做可以更轻松地分离隐变量，从而分离隐变量中控制图像不同特征的部分，例如通过分离出相应的隐变量空间，我们可以控制某个人是否微笑，是否戴眼镜以及他们的头发颜色现在，GAN 的一个应用场景是视频会议在普通的视频会议通话中，你只需拍摄图像所有图像将被编码成视频流并进行传输这需要大量的带宽。通过使用 GAN 我们可以让它更高效 Maxine 技术的一个方面是，我们会将一个静态图像发送到接收端，而接收端使用该静态图像启动生成器网络然后，对于视频的每一帧，我们都会提取关键点，并只向接收端发送关键点，这是一个非常低的带宽流然后，生成器网络将关键点与静态图像相结合，并生成动画图像，这样我们可以使用极低的数据费用为视频会议生成高质量的视频，在疫情期间，这是非常关键的计算机技术之一这项技术的奇妙之处在于，你不仅可以使你本人的图像动起来如果你希望在某天成为一个蓝头发的卡通人物该技术也能实现在此视频中，电视记者 Charlene Qian 正在讲话，我们可以在她讲话时不断提取关键点并将这些关键点转换成一个图像，就是这个蓝头发的卡通人物现在，正如我们可以使用 GAN 生成出色的图像一样，目前许多 AI 都涉及语音、文本、语言 NVIDIA 有用于语音、文本、语言的系统就是 Javis。Jarvis 是多模态对话式 AI 服务它基本上包括了对话过程的全部功能你可以和它讲话。神经网络会提取你的音频，并从该音频转换出文本然后，我们可以将该文本输入到自然语言模型中以进行查询、翻译、问答接下来，我们可以获取答案并将其输入回自然语言模型，生成文本将文本转换为语音并生成音频波形真正奇妙的是，在我们结合使用 Jarvis 后我们可以通过自然语言与我们的 AI 进行交互并使用 GAN (GauGAN) 来进行绘画，你可以指定希望在哪里有草、山、水，然后 GAN 会帮你填充细节，并生成十分漂亮的图像我们来看看实际此操作时会出现什么情况树木环绕的平静湖泊阴天时开阔的草地通向旷野的乡间小路夕阳下的美丽海滩除此之外，我们还可以使用语言模型构建系统，在大量文本上训练语言模型然后给出提示，我们可以让它编写句子以下示例展示了 Megatron 大型语言模型在提示下的运行情况我们将给出一个提示，了解它如何根据给定的提示编写出逼真的句子我们的 Megatron 自然语言处理模型已经在大量的核心数据上进行了训练而且它可以根据所学内容，按照提示生成句子让我们从一个提示开始 “Male was bored on a weekend.” （男子周末感觉很无聊。）

根据这个提示，该模型建议的关键词是“decided” （已决定）和“go”（去）我们拒绝这些关键词，而输入“Walk”。有了这个提示和关键词“Walk” Megatron 生成了“he decided to go for a walk on a local beach” （他决定去当地的海滩散步）它还建议使用新关键词“saw”（看）和“beach”（海滩）对此，我们决定接受这些建议，于是按下回车键 Megatron 返回的内容是“at the beach, he saw a group of surfers” （在沙滩上，他看到了一群冲浪者）并预测了新的关键词“decided”（决定）和“surf”（冲浪），对此，我们也接受 Megatron 返回的内容是：“he asked one of the surfers if he could join him surf” （他问其中一位冲浪者是否可以跟他们一起冲浪）它没给出新的关键词，因此我们添加关键词“happy”（高兴） Megatron 生成了“he was happy as he got to surf for the first time ever” （这是他第一次冲浪，他很高兴）在 GAN 和语言模型之后，AI 另一个真正的关键应用是推荐系统，它让生活的方方面面发生了变革在许多方面来说，推荐系统是数据中心 AI 中最重要的部分之一，因为它们能快速决定向一个人展示哪些广告。这决定了最终的营收除此以外，如果你在 Netflix 上观看电影它们会选出下一部你极有可能想要观看的电影对于电子商务而言，它们会推荐你可能喜欢的产品社交媒体会使用它们来做推荐，最重要的是推荐广告这些都是非常困难的 AI 问题，因为除了神经网络外，它们还涉及 Embedding 你可能拥有一百万个 item，如果你不希望将其表示为一百万维的向量你可以通过一个 Embedding 表来运行这些项以生成更短的长度的向量，然后输入你的神经网络这些 Embedding 表非常庞大，而且非常稀疏神经网络本身就非常稀疏。因此，这是计算中非常具有挑战性的方面 NVIDIA 通过 NVIDIA Merlin 包简化了此项工作几乎可以让任何人都能使用这种推荐系统技术通过使用 GPU 加速，我们可以同时使用 ETL （对大型数据集进行数据提取、转换和加载的工作）以及训练本身，将时间从几小时缩减到几分钟 Merlin 在 ETL 部分带来 90 倍以上的加速，并在训练部分带来 20 倍的提升训练和推理训练是指采用一个经过整理的数据集（可能是标注过的）迭代地使用它来计算更新模型的权重推理则是指采用经训练的模型，输入内容,通过模型计算后获取相应的输出例如，你可以输入一张图片，得到对应的分类输入一条语音，得到相应的文本输入一个问题，得到对应的答案输入一个随机数得到一张经过 GAN 生成的图片不论什么应用场景，推理都是深度学习中性能发挥作用最大的环节为了提供更高的性能，我们要确保黄氏定律提出的发展趋势仍在继续，因此我们每年将推理性能提高一倍实际上远不止一倍，我们总是在不断超越推理不仅仅依靠计算这是一个复杂的问题，涉及此处展示的众多人员一名数据科学家会整理数据集，选择要使用的模型，通过反复试验不同的模型和数据，训练该模型接下来，机器学习工程师将对该模型进行优化以便在数据中心获得更好的性能，优化投资回报率优化后的模型将进入模型库，由开发团队来决定如何部署这些模型：从模型库中拉取模型在特定硬件上运行，接受终端用户的请求，并返回相应的结果为简化推理部署过程，NVIDIA 开发了 Triton 推理服务器这是一款开源软件，支持多个不同的推理后端让数据中心的推理部署变得非常简单该软件通过 HTTP 或远程过程调用，支持面向 AI 应用的标准查询应答接口此外，Triton 将接收这些请求，并根据不同应用的延迟和吞吐量需求，提供不同的批处理机制如果容易受延迟影响，那么你需要对一个较小的批次单独运行查询，这样就不必浪费大量时间等待其他查询完成在其他情况下，则可以批量运行更多查询来提高效率这一切均由 Triton 的动态批处理模块进行控制批次就绪后，将加入每个模型的调度程序队列以等待运行最终会部署在 GPU 或 CPU 上，我们支持多个后端可以处理针对不同后端编写的模型在指定数据中心内，可能有 Pytorch 模型、ONNX 模型或者 TensorFlow 模型。我们可以处理上述所有模型，甚至支持更多格式因此可以轻松对模型进行操作，并分配适当的 GPU 资源这些让部署变得非常简单事实上，通常情况下，你运行的不仅仅是一个单一的模型而是一个模型的集合，例如在之前的 Jarvis 示例中你可能有一个模型进行特征提取，输入到另一个神经网络中进行语音到文本的转换然后通过自然语言模型完成问答处理，最后进入语音合成模型，生成最终的波形 Triton 可以处理此类集成，并了解如何调度所有这些不同的模块并同时向其馈送内容简化数据中心内复杂推理的部署人工智能的另一个关键应用领域是医疗健康 NVIDIA Clara 是一套旨在通过GPU 加速医疗健康发展的应用如此处所示，我们通过 Parabricks 从基因组学入手获取一个基因组序列，组装、比对序列并检测变异，帮助根据基因组，实现针对个人的个性化医疗健康服务 COVID 等多种病原体具有结构，且疗法如何与该结构相互作用至关重要 CyroSPARC 等软件平台有助于发现该结构人们可通过 CyroSPARC，利用 X 射线晶体学拍摄一组影像然后 CyroSPARC 将在 GPU 上，根据这些影像构建病毒结构有了结构以后，您就可以利用 AutoDock 进行对接实验借助 Rapids 加速的数据库系统，我们从数据库中提取数十亿种治疗性化合物对其进行 AutoDock 分析，查找最有可能与 COVID 病毒发生作用的化合物，然后选出一批化合物以供进一步筛选进一步筛选将通过各种分子动力学模拟进行旨在找出哪些化合物能够真正与病毒上最受关注的特定位点结合，适合进行物理测试 Clara 还提供众多医疗影像处理工具可分析乳房 X 光检查，超声检查帮助放射科医生发现一些关乎诊断的重要情况现在，无论是基因组分析、影像分析，还是此流程所涉及的任何其他分析，医生可能都希望了解文献中对某种情况的观点而医学文献极度丰富，人们可以参考的论文太多为此，我们推出了 Biomegatron，这是一种自然语言处理系统医生可以查询想要了解的某一特定情况。而 Biomegatron 将搜索医学文献推荐相关度较高的文章，同时还能回答有关特定疾病的问题如需了解 GPU 如何从各个不同的时间维度加速医疗健康发展，请参考此处的示例在 Folding@Home 计划中，采用 GPU 的人员可捐赠未使用的计算周期，获取蛋白质序列并运行折叠代码，进而尝试从序列中发现结构由于使用众多不同型号的 GPU ，此计划花费了数月时间但是其他方法则需花费 30 倍的时间然后逐步将周期缩短至数天，获取 X 射线晶体学数据即冷冻病毒的这些 X 射线图人们可在 12 天内发现病毒结构，而以前则需要五个月的时间最近，DeepMind 发布了 Alpha Fold 这是一种应用强化学习从序列中学习到结构的方法此方法将获取蛋白质的氨基酸序列，例如病毒的基因序列，并能够借助人工智能发现结构且速度与之前相比大大提高，可能只需几分钟另一方面，在找出一些治疗性化合物后，我们希望针对已知结构来进行筛选 AutoDock 经 GPU 加速，运行速度较之前快了 33 倍橡树岭国家实验室利用其基于 GPU 构建的超级计算机 Summit，能够在一天内筛查 20 亿种化合物而之前这一过程则需要三个月的时间发现这些化合物后，便可使用 Torch 等代码对其进行模拟这样就能在八分钟内对数百万种药物进行筛查，而不用再花费几百天时间如果需要进一步分析，我们目前有在 GPU 上运行的整套计算化学工具包可对这些候选药物进行进一步分析该流程中，我们首先会从基因组学入手 NVIDIA Parabricks 可通过 GPU 加速基因组学分析其中包含用于组装的模块进行基因组测序时，你会得到许多 read 其长度从几百个碱基到几万个碱基不等，就像是拼图游戏我们需要将所有这些 read 组装到包含 30 亿碱基的完整人类基因组中，这是一个大型一维拼图游戏 Parabricks 会进行组装，并且会在完成组装后将组装的基因组与参考基因组进行比对，从而找出变异即特定个人基因组的不同之处这些变体对于治疗非常重要如中间的图所示。检测变异的方法有很多但是 Parabricks 可将这些检测方法的速度提升 10 倍到 40 倍，让人们能够迅速发现特定基因组真正值得关注的地方 Parabricks 可用于三种类型的基因组分析生殖系基因组是你出生时就拥有的基因组体细胞基因组是一种取自肿瘤的基因组，可能会随着癌症的发展，迅速发生变异 RNA 序列表达特定蛋白质，从细胞中提取是基因组表达的动力学从右图中可以看到，如果我们具有此 RNA 序列数据 Parabricks 拥有分析此类数据的模块，我们就可以直观地了解基因的表达情况这需要一个维度非常高的空间，可能会表达出来的每种蛋白质都有一个维度然后会投射到二维空间，这样可提供更多的洞见然后分析人员可以放大该空间的一部分从而直观地查看与其想要获得的发现有关的进展情况因此，总体而言，NVIDIA Clara Parabricks 加快了提取序列数据并从中获得洞见的过程 GPU 引领的人工智能革命也带来了机器人技术的变革迄今为止，大多数机器人都是定位极其精确的机器这些机器经过编程，能够以毫米级精度移动执行器如喷枪、点焊机或某些机械手，完成重复性极高的任务但不会与环境有任何交互。这完全是开环的但是，借助深度学习，我们可以构建能够感知环境并与环境交互的机器人在 NVIDIA 的机器人技术研究实验室，我们正在从事这项工作我来向大家展示一下工作中一些有趣的内容为了与此人互动，捡起块状物，此机器人需要计算路径并控制其运动，从而平稳移动，避开障碍为此我们开发了一项名为“黎曼运动策略”的新技术该技术本质上能够从数学角度简化这一复杂运动问题的表达，便于实时解决问题除了在模拟环境中堆叠这些块状物，我们还加大难度人为设置了一些障碍，即这些紫色的圆柱而无论球滚到哪里，机器人都将能够快速计算一条路径绕开这些圆柱形障碍并抓住球一旦我们能够在未知环境中移动并成功避开障碍后我们就要了解如何操控未知目标许多人已经完成了操控方面的一些工作但通常需要针对特定目标对机器人进行训练这样做的结果是，如果机器人看到，未进行针对性训练的目标，便无法抓取这些视频展示了机器人学习如何抓取陌生目标的过程我们已使用人工智能对机械手进行了泛化训练使其能够找到未知目标的最佳抓取点。它还可以学习如何在有障碍物的情况下抓取目标这里，我们想拿起杯子，可以看到，杯子被糖盒挡住了因此，我们先改变目标，命令机器人捡起糖盒将其移走，再次通过黎曼运动策略计算运动的抓取过程然后返回，重新将目标设为杯子清理障碍物后，机器人就可以计算抓取杯子的最佳方式抓住杯子，然后继续执行任务我们可以在模拟环境中训练机器人然后让机器人将模拟环境中学到的内容应用于真实环境因此 GPU 特别适合机器人技术在本视频中，四足机器人学习如何行走和处理障碍物，这充分说明了这一观点起初，四足机器人什么也不会，通过强化学习和一系列课程我们训练其在条件越来越困难的表面上行走起初机器人在平面上行走，然后是陡度不同的楼梯接着是布满各种障碍物、块状物和不规则障碍物的表面在掌握了在简单表面行走后，机器人就可以学习在更加复杂的表面上行走它会学习如何应对每一种表面接下来，在真实环境中，在模拟环境中接受过训练的机器人便能够按自己的路径走过不同街区还能上下楼梯，而这些全都依靠它在模拟环境中学到的技能，其中对其策略网络进行了训练使其对遇到的每种状况都能作出特定的动作反应它学习了不同的步态以应对不同类型的楼梯和其他表面因此，模拟环境中的训练所学内容可应用于真实环境，而我们能够利用 GPU 的并行性在模拟世界中并行训练多个机器人这让 GPU 有了更广阔的应用空间 AI 的另一个应用便是自动驾驶汽车自动驾驶汽车是一个极其复杂的问题，涉及到传感器摄像头、雷达、激光雷达、实时计算等多种类型的技术在此应用中，汽车不仅需要高速行驶还要预测其他汽车、行人及周围其他交通参与者的行为驾驶汽车的风险很高每年有 130 万人命丧高速公路于是我们选择采用人工智能技术，打造由 GPU 控制的自动驾驶汽车而人工智能充当的驾驶员不会在驾驶时发短信身体状况不佳时不会开车，并且能够在各种情况下始终完全专注于驾驶，对四周各个方位的情况了如指掌因此能够显著提高在高速公路上驾驶的安全性此应用并不是在汽车中采用一些 AI 技术那么简单而是要解决从数据采集开始的端到端问题你必须通过各种传感器，包括摄像头、雷达激光雷达、超声波设备生成大量带标记数据的数据集然后接收所有的数据并进行挑选，毕竟并不是所有数据都同样重要你并不希望将这些数据一股脑儿地加入自己的训练集而是会选择最相关的数据来训练模型然后在大型 DGX SuperPOD 上的数据中心中训练模型生成经过训练的神经网络模型，以便部署到汽车中在将这些模型部署到汽车之前，我们要通过硬件在环的仿真模拟对其进行仿真测试我们会利用运行这些模型的汽车中的实际 AI 硬件来模拟合成这些模型看到的信息这些信息包括为摄像头生成的合成视频流，为激光雷达生成的合成激光雷达数据，为雷达生成的合成雷达回波然后我们会验证这些模型在仿真时是否正常工作在汽车中运行的原生软件中包含许多组件其中一个是 DRIVE AV，也就是自动驾驶汽车组件负责驾驶汽车的便是这一组件。接下来我会介绍可用于实现自动驾驶的各种不同的模型包含能够使用所有传感器感知汽车周围环境的感知组件以及规划组件，这些组件可以决定汽车的行驶路线，应该加速还是刹车还有预测组件，这些组件可以预测场景中其他汽车、行人及其他交通参与者的行为以便根据其他交通参与者可能出现的行为方式进行提前规划汽车中还有一个叫做 DRIVE IX 的组件，该组件是一个监视驾驶员行为的摄像头，可判断驾驶员注视的位置、驾驶员的行为以及他们的手势驾驶员可以通过手势控制汽车，而不用按按钮或调旋钮然后是 DRIVE RC，可提供远程控制功能如果发生意外，必须有人远程接管汽车，我们拥有能够远程控制汽车的软件包为此，我们需要使用卓越的神经网络来感知环境我们需要检测障碍物，了解与物体之间的距离和碰撞时间我们采用特定神经网络来搜索自由行驶空间即汽车应该行驶的空间以及不能行驶的空间为进行检测，我们不仅需要使用摄像头，还需使用激光雷达和雷达我们采用特定神经网络规划路线，帮助路线规划程序查找最佳方向、发现交通标志，以及绘制地图该神经网络可在高速公路上识别远光灯可帮助你停车可处理不同特征、天气、不同交叉路口、交通信号灯等状况我们可以看到这是相当大的计算负载多个摄像头、多个其他传感器、激光雷达和雷达各自运行着多个模型，以提取推进规划过程所需的各种不同的信息为处理如此巨大的工作负载，我们将采用专为边缘应用打造的基于 Ampere 架构的各种产品和解决方案在这里，我们使用的解决方案专为自动驾驶汽车而打造而且我们可以根据特定自动驾驶汽车的工作负载调整规格如果只需要驾驶员辅助功能，则可使用基于 Orin Ampere 架构提供每秒 10 万亿次运算，且能耗仅为 5 瓦的嵌入式芯片来处理该任务对于 L2 级自动驾驶，我们可提供 45 瓦能耗且每秒 200TOPS 的 Orin AGX 来处理该工作负载对于能够完全实现自动驾驶的 L5 级无人驾驶出租车我们可提供超级计算机应对汽车自动驾驶工作该计算机采用一对 Orin 和一对 A100 算力高达每秒 2 千万亿次运算，功率为 800 瓦这种双重的计算机可提供冗余，如果其中一部分系统失效则另一部分系统继续工作处理其中一些传感器的信号至少在汽车安全停车之前仍继续控制汽车接下来要介绍的是此次主题演讲中我个人最喜欢的部分也就是我的研究实验室正在进行的一些项目这些是 NVIDIA 研究院正在研究的三个项目首先，我要强调的是，这些都是研究项目它们并不一定会在未来的某个时间转变为真正的产品因此，这些并不是 NVIDIA 的产品我想讲的第一件事，便是我们将如何延续黄氏定律保持每年将推理的性能提升一倍事实上，在过去的八年里，从 Kepler 到 Ampere 我们每年所实现的提升均不止一倍我们正在进行着多个研究项目，这些项目旨在寻找不同的替代方案而这些方案中的任何一个均能在接下来的几代中继续帮助我们实现性能提升一倍的目标为实现这一点，我们在实验室构建了大量高效的深度学习推理加速器左侧图片显示的是 RC18 RC 代表研究芯片。这块芯片在 2018 年研制完成能达到每瓦 9 teraops 的计算能力并且还可从 0.3 扩展至 128 teraops 芯片由一组处理单元组成，每个这样的小型芯片含有 16 个处理单元然后，36 块这样的芯片便可组装成一个多芯片模块借助其内部构建的高效推理引擎，该模块能够实现比当前已发布产品更高的推理效率在构建 RC18 的过程中我们学到了很多特别是我们了解到，即使是非常高效的 Tensor Core 在进行推理时，也有许多能量并没有真正用于负载的数学运算而是用在了搬运数据因此，我们构建了一个名为 MAGNet 的系统，可用于设计空间探索此系统能让我们探索深度学习加速器的不同组织形式如何使用不同的数据流和不同的调度方案将数据从内存的不同部分移至不同的处理单元，从而执行计算借助 MAGNet，我们便能像下图这样模拟深度学习加速器我们的全局控制器能控制一组处理单元这些处理单元用于在各自的局部内存、芯片上的全局缓存和芯片外部的 DRAM 间交换数据每个处理单元内部，均有缓存保留权重和输入激活值向量乘积累加单元 (MAC) 每个向量 MAC 可执行 8 至 32 条向量的乘积累加运算然后我们拥有 8 至 32 条这样的 MAC 这样一来，每时钟周期可进行 64 至 1024 次乘积累加运算这些乘法累加器的输出将落入图上底部的输出激活值区域这些计算结果将在此以适当方式被累加并存入输出激活值缓存中，等待系统将其写入全局缓存右侧的图片详细展示了向量 MAC 其中有一堆乘法器，它们的结果会输入一个大型累加器这本质上就是一个点积运算因此在这些芯片上，主流的数据流组织方式都涉及两个方面，将权值驻留并让输入激活值流入，输出激活值顺序流出，正如下方小型饼状图所示，这会导致大部分能量用于累加缓存，其占比为 55% 只有不到三分之一，准确的说是 29% 的能量用于执行推理所涉及的算数运算如果问题在于输出不固定然后所有时间均用在了访问累加缓存，那么还有保持输出固定的替代方法这个替代方法所做的便是将问题推向输入端，但因为需要不停访问新权重，所以现在所有能量均集中在了权重缓存因此，注意到有这样的问题存在后，我们便进行了创新，并决定要添加一层存储层我们将其称为权重收集器和累加收集器收集器会在数据流中添加一层存储层也会为在深度神经网络中嵌套循环的卷积计算添加一层存储层这样一来，我们便能够移动计算量就不会像以前的计算一样，只有三分之一的能量用于数学计算我们能够获得 60％或更多的能量和计算量而这个特定单元能够达到每瓦 29 teraops 的推理能力这款产品发布于 2019 年年末自发布之后，我们对此架构又进行了改进，但还未发布目前我们能够达到每瓦 100 teraops 的推理能力因此，我们依然在延续黄氏定律，并且每年将推理性能提升不止一倍虽然还未发布，但我们期望这些技术能运用在之后的 Tensor Core 版本以及未来用于汽车和机器人嵌入式芯片中的深度学习加速器中因为我们需要不断扩展，所以我们需要将多个 GPU 用 NVLink 和 NVSwitch 连接这项技术是由 NVIDIA 研究院开发的但我们预估，要想继续让我们在 NVLink 中所使用的信号传输带宽每隔一代提高一倍，会变得愈发困难目前，我们的带宽可以达到每线对 50Gb/s 可以看到我们依然有方法实现 100 至 200Gb/s 但在这之后则会变得愈发困难。因此，我们在考虑使用基于光子学的光通信技术替代方案用于从 GPU 传出信号，并在 NVSwitch 之间传输这张图片展示了大致的概念。左侧是我们已发布的基于电信号的 DGX，右侧则是基于光信号的 DGX 的假想图在这个系统中，我们会将两块 GPU 封装在一张纵向卡上然后纵向卡之间会用光纤束进行互联每个纵向卡的右侧部分为光源正如其名，它能为光学电源提供多种波长的光光学引擎会以极高的数据速率将这些光调制成信号我们发现在采用硅光子技术的方案中，每根光纤均具有多种波长的光而每种波长的光均能以 25 至 50Gb/s 的速度传输信号这样一来，总的数据速率在 400Gb/s 而每根光纤的速率在几 Tb/s，保守估算使用该方案传输信号时的能效比为每比特四皮焦耳而电信号方案则为每比特八皮焦耳电信号在传输时，由于自身的限制其传播距离只有三分之一米，但光信号的传播距离有 20 至 100 米，因此，我们只需一个单跳NVLink 便可连接至规模更大的系统而不需要像电信号一样不断重复连接我们打算采取一种相对新型的光学技术实施此方法此方法名为密集波分复用我们先从光学电源开始，即左侧显示的梳状激光光源该光源可生成多种不同颜色的光这些颜色间的间隔非常小可能不同颜色间的间隔在 100Ghz 之间我们在发射端将梳状激光馈送至光学引擎芯片激光将沿着光总线传播，环形谐振器将在此对其进行调制每个环形谐振器均被调谐至其中一种波长以便选取该种波长的光，或使其通过对于每种颜色的光，我们能调制 25Gb/s 的比特流因此，如果现在有 32 种颜色的光，且每种颜色的速率为 25Gb/s，那么从光纤输出的总速率则为 800Gb/s 在接收端，我们又设计了一系列环形谐振器每个用于选取其中一种颜色的光，并将其馈送至光检测器光检测器会将光送至跨阻放大器，最后输出信号供我们接收我们会将这一部分与位于中介层的 GPU 封装在一起 GPU 会通过有机封装与包含环形谐振器和波导的光子集成电路，进行通信以使光向四处发散此外，电气接口芯片会接收来自 GPU 的短距离互联信号并且控制 PIC 上面的环形谐振器来调制这些光信号再回顾一下接收端，这里有 EIC 和 PIC 但对于 EIC 的接收端，我们需要知道跨阻抗放大器和 PIC 均包含光检测器综上所述，我们给出了未来采用光电技术方案的 DGX 系统概念图借助这种系统可以构建一个大型的 GPU 托盘，如图所示的例子中每排有 18 个 GPU，9 排便包含超过 160 个 GPU 这些 GPU 均采用大型光纤束进行信号传输可以看到右侧的 NVSwitch 托盘，具有多张 NVSwitch 卡，蓝色光纤连接的是作为输入端的光学电源，橙色光纤连接的是输出端灰色光纤连接的是托盘内部单独的 NVSwitch 此光纤用于形成 Clos 网络，从而使我们能够从输入端至输出端为数据设定路径我要分享的最后一个项目便是 Legate 关于 GPU 我们面临的问题之一是 GPU 加速可受益的应用程序很多远远超过了我们花时间编写的 CUDA 程序，甚至所有在使用的库也很多我们在不断努力，不断简化编程步骤如今有很多人在使用 Python 或 Python 内的 NumPy 库进行数值分析因此我们开发了一款名为 Legate 的程序包，该程序包基于我们称之为 Legion 的数据感知和任务调度运行时系统而构建借助 Legate，我们无需更改代码便可让 Python 程序无感运行在 Jetson Nano 甚至是 DGX SuperPOD 上开发者所需做的便是基于原始的 Python 代码，将原本的 “import NumPy as NP”更改为“import legate.numpy as NP” 这段代码会加载 legate.numpy 库，并自动完成之后的操作

因此，我们可以在 Jetson Nano、单卡 A100 也可以在图中所显示的 DGX A100 或 DGX SuperPOD 上运行现在，我们来看看在这些系统上运行的结果这是一个相对简单的雅可比迭代示例，代码显示在右侧首先，让我们来看看在单个 GPU 上运行的结果在这里，我们真正需要关心的是这个橙色正方形标志它代表 CuPy，这是当前我们运行雅可比迭代性能最优异的库可以看到图中绿色线所代表的 Legate，在 GPU 上运行的结果略优于 CuPy 如果我们在任务调度器 Dask 上运行，或者当我们增加 GPU 数量时其性能表现会迅速下降但是，如果我们使用 Legate，这是 Legate 和 Dask 在 CPU 上运行的对比结果可以发现代表 Legate 性能的曲线依旧平坦这是因为 Legate 能更好地并行处理任务并让所有 GPU 处于繁忙状态当我们在 GPU 上运行 Legate 时，性能有些轻微下降这些曲线所展示出的便是所谓的弱扩展性每当增加 GPU 数量时，问题的规模便会成比例增加因此，理想状态的增速呈现形式应是一条直线在一开始的几次 GPU 倍增后，我们得到的是一条直线但随后直线便开始下降，这是因为 Legate 无法针对大量的 GPU 进行理想的并行处理，这也正是我们要努力解决的问题让我来总结一下在 NVIDIA，我们不断努力构建全球一流的计算设备并构建与这些计算设备配套的软件用于解决世界范围内要求十分苛刻且十分重要的问题这一切均基于我们的 Ampere GPU。我们可以对 Ampere GPU 的性能进行扩展，向上可扩展至 A100，向下则可至嵌入式 Jetson 设备还可以通过 DGX、DGX SuperPOD 将其扩展至运行速度一流的超级计算机上之后，我们便能通过大量的库和基于这些库构建的垂直技术堆栈将这种搭载在从 Jeston 到超级计算机等任意规模系统上的技术运用到图形、人工智能、医疗健康视频分析、自动驾驶和机器人技术中存在的问题上通过我们在研究实验室的工作，我向大家展示了未来的一些发展方向而这真的只是冰山一角我们正在做着许多激动人心的事情，而我相信当我们能在未来的某一刻将其中的一些构思变为现实时，一定会振奋人心届时，我们将构建更强大的计算设备并将其运用至一系列更广泛的问题上，从而改善人们的生活非常感谢各位，祝大家生活愉快大家好，欢迎参加 GTC 中国大会 NVIDIA 高峰论坛我叫郑义陶，英文名是 Raymond Teh 负责 NVIDIA 亚太地区销售和营销业务我是本次座谈会的主持人今天，我们将聆听四位 NVIDIA 领导人讲述公司的新突破及其对中国市场的重要性大家好，我是郑义陶，Raymond 负责英伟达在亚太区的业务很高兴与大家相聚在 NVIDIA GTC China大会过去的几年，英伟达在游戏业务、专业可视化数据中心以及自动驾驶等领域有着迅速的发展这其中离不开广大中国客户与合作伙伴的联合创新我谨代表 NVIDIA 感谢各界朋友一直以来的大力支持！今天我很高兴邀请到几位 NVIDIA 的高层现在就让我们一起来深入的探讨与分享吧女士们、先生们，请允许我介绍本次座谈会的四位演讲嘉宾第一位演讲嘉宾是 NVIDIA 全球业务运营执行副总裁 Jay Puri 先生 Jay 负责 NVIDIA 全线产品与服务的全球销售和区域营销我们的第二位演讲嘉宾是 NVIDIA 企业市场兼开发者计划全球副总裁 Greg Estes 先生 19 日他负责领导公司的各项工作，与超过 200 万名开发者和数千家 AI 初创公司开展合作我们的第三位演讲嘉宾是 NVIDIA 医疗业务全球副总裁 Kimberly Powell 女士，她负责 NVIDIA 全球医疗健康业务我们的第四位发言人是 Ashok Pandey 先生，在中国通常被称为“潘迪” Pandey 是 NVIDIA 亚太地区副总裁，负责运营和合作伙伴事宜我们有非常多元化的背景，当然也有丰富的经验今天我们要讨论很多内容那我们开始吧 Jay，如果可以的话，我要先问您第一个问题：中国市场对 NVIDIA 有多重要？你好 Raymond，中国不仅市场规模巨大，而且对 NVIDIA 极为重要中国市场具有战略意义，我们在这里进行了大量投资 NVIDIA 进入中国已有二十多年一开始，我们运营的是 PC 游戏平台 GeForce 中国有数百万的 GeForce 粉丝，这绝对是件了不起的事我们建立了一个由合作伙伴、AIC、分销合作伙伴和游戏开发商等组成的极佳生态系统 PC 游戏中一些非常重要的发展趋势实际上源自中国市场，比如免费游戏、网吧、电竞等所以说，一家企业只有了解了中国市场，才能在世界范围内取得成功因此，中国市场对 NVIDIA 至关重要我要在此感谢所有的 GeForce 粉丝我们刚刚推出了新的 RTX 30 系列产品，简直太棒了希望大家可以试一下当然，在 10 到 15 年以前，我们就意识到摩尔定律已经到了极限我们开创了加速计算的新计算模式它一开始用于高性能计算和大多数科学应用领域经过过去几年的不断调整，此平台现已可应用于人工智能和数据分析您在亚太地区运营，会完全理解这一点中国应用 AI 为行业提供竞争优势的能力一直处于最前沿大学正在进行一些非常前沿的研究世界上一些极为重要的 AI 研究人员都在中国创业生态系统充满活力真正让人欣慰的是，中国 AI 领域的大部分工作都是在 NVIDIA 的 AI 计算平台上完成的因此，说中国市场对 NVIDIA 重要，就有点轻描淡写了应该说，中国市场极其重要。我们努力向中国市场学习，改进我们的平台，以便继续满足优质合作伙伴和客户的需要我想借此机会感谢他们的信任，以及各位对 NVIDIA 的信任我们将继续锐意创新，满足您的需求谢谢你，Jay，您很好地回答了我的问题 Jay 刚刚谈论了我们的业务，Greg，GTC 是我们的开发者大会您能和我们分享一下针对开发者我们在做的工作吗？好的，我很荣幸，首先我也要欢迎大家参加 GTC 中国大会这是我们为开发者举办的一次盛会本次 GTC 中国大会将有数万人参加并会举办 200 多场来自不同市场领域的不同类型的演讲演讲嘉宾有研究人员、核心开发者、学生等等在许多方面，中国都是我们最重要的开发者市场在中国，有超过 40 万开发者注册参与了我们的项目，这比世界上任何其他国家/地区都多中国一直是我们工作的重点全世界目前约有 225 万注册用户参与我们的开发者项目他们可以访问我们的 SDK 我们不仅在 CUDA 领域投入大量工作，而且还积极致力于我们拥有的其他上百个 SDK 它们用于 Kimberly 即将谈到的医疗健康领域、机器人、金融服务和实际上我们所处的各个市场 GTC 让所有这一切得以汇集，您不仅可以聆听开发者分享他们的重要工作和他们在 GPU 方面的重要研究还会遇到业内整个生态系统里的其他成员所有平台提供商和全新领域，包括初创企业正在做的事情 Jay 刚才简单提到了这一点我们的初创加速计划在中国已有数百家初创公司会员

2020-12-21 05:20

Show Video

Other news

How Quake Failed their way to Success 2024-04-19 14:04

Tesla's Job Cuts and Apple's iPhone Slump | Bloomberg Technology 2024-04-17 09:25

Understanding Asyncio in Python: 5 Key Concepts 2024-04-10 17:50