英伟达超强汽车芯片来袭——GeForce RTX 40 系列显卡_技术

英伟达GTC秋季大会近日盛大开幕。会上，英伟达CEO黄仁勋不但带来了最新一代的RTX 4090以及 “Ada Lovelace”架构。同时，他还修正了公司的汽车SoC路线图，抛弃 Atlan，计划推出具备2000 TFLOPS性能的Thor。在会上，黄仁勋还披露，H100已经全面投产。

现在，我们来看一下这次大会上的重点。

GeForce RTX 40 系列显卡：速度提升高达4倍

据报道，英伟达RTX 4090 将有 128 个 SM 和 2,520 MHz 升压时钟（boost clock），再加上 24GB GDDR6X 内存，运行速度为 21 Gbps，具有 384 位接口。内存配置与RTX 3090 TI相比基本没有变化，这从表面上看基本是对的。然而，就像 AMD 对 RDNA 2 的 Infinity Cache 所做的那样，Nvidia 显然会在 AD102 中打包 96MB 的 L2 缓存，而 GA102 中只有 6MB 的 L2 缓存——但这还没有得到官方证实。

与 Ampere 相比，新产品的核心数量增加了 50% 以上，最多有 128 个 SM，而不是最多只有 84 个 SM — 未来仍有进一步提升到140-144 个 SM 型号产品的空间，也许是新的TItan RTX，或者至少是未来的 RTX 4090 TI。仅核心数量就可以大幅提升性能，但 Nvidia 还调整了 Ada 以达到更高的时钟频率，这再次类似于 AMD 对 RDNA 2 所做的，结果是已发布型号上预期的 2.5-2.6 GHz 提升时钟。这比 RTX 3090 的 1,695 MHz 升压时钟高出近 50%，比 RTX 3090 TI 的 1,860 MHz 高出 35%。黄仁勋透露，Nvidia 在其实验室中通过超频达到了超过 3.0 GHz 的时钟速度。（您好，800W 定制 RTX 4090 卡！）

结合起来，GPU 着色器计数和时钟速度产生了理论上的最大性能数据。RTX 3090 的额定值为 35.6 teraflops，RTX 3090 Ti 将其提升至 40 teraflops，而现在 RTX 4090 将指针推高至 82.6 teraflops——换句话说，计算量增加了一倍多。虽然仅 teraflops 可能是一个毫无意义的数字，但它在类似的架构中仍然有用，而且我们正在研究自 GeForce 品牌首次出现以来我们从 Nvidia 看到的最大的代际性能飞跃。

Nvidia 尚未说明各种卡中具体使用了哪些 GPU，尽管之前的传言称我们正在研究三个独立的芯片：AD102、AD103 和 AD104。再次考虑到核心数量的差异，这似乎仍然很可能，尽管 4080 12GB 可能会使用收获的 AD103 芯片——如果不是现在，那么在未来的某个时候。

当然，更大的问题将是现实世界的收益，而内存带宽缺乏实质性收益确实会引发一些问题。但是，请记住，当 AMD 基本上在其 RDNA 设计上添加了一堆 L3 缓存然后提高时钟速度时，像 RX 6600 XT 这样的卡能够保持领先于上一代 RX 5700 XT，后者的内存几乎是其两倍带宽 — Navi 23 上只有 32MB。96MB 的二级缓存应该使 Nvidia 缓存命中率达到 50% 或更高，这意味着有效内存带宽增加了一倍。

理论性能看起来异常强大，但其余部分呢？Nvidia 提供了上述基准测试结果，将三款新 GPU 与现有 RTX 3090 Ti 进行了比较。您可以看到，在传统游戏中，在左侧，RTX 4080 12GB 可能会比 3090 Ti 稍慢，但要快很多。考虑到其他细节，我们怀疑某些测试是在启用 DLSS 3 的情况下完成的，这仅在 RTX 40 系列卡上可用，从而使它们具有相当大的性能优势。

在右边，情况确实如此。RacerX、Portal RTX 和 Cyberpunk 2077 “RT Overdrive”都将光线追踪效果提升到了新的极致。我们没有基准 fps 数据，但在某些情况下，RTX 4080 12GB 的速度是 3090 Ti 的两倍多，而 RTX 4090 的速度则高达四倍。是否仍允许 RTX 3090 Ti 使用 DLSS 2？

让我们简要介绍一下架构更新，以了解更多背景信息。据介绍，英伟达全新的Ada Lovelace产品使用台积电4n工艺打造，拥有760亿的晶体管。

核心数量和时钟速度有所提高，但更重要的是，架构更新可以进一步提升性能。在 GPU 着色器上，Nvidia 表示 Ada 内核的功率效率高达两倍。着色器还支持称为 SER 的新功能，即着色器执行重新排序，它似乎主要有助于提高光线追踪性能，但在传统渲染模式中也可能有用。

转向 RT 核心本身，Nvidia 增加了更多的射线/三角形相交硬件，从而使该区域的吞吐量提高了两倍。新的不透明度微图引擎还可以加快透明纹理的光线追踪。同样，微网格引擎显然可以在没有 BVH 构建和存储成本的情况下添加几何“丰富度”——这意味着 BVH 的三角形更少，但最终渲染的三角形更多。Nvidia 表示，第三代 RT 内核生成 BVH 结构的速度比第二代内核快 10 倍，同时使用的内存减少了 20 倍，即 VRAM 需求的 5%。

最后，通过 Hopper 对 FP8 数据类型的支持升级了 Tensor 核心。假设工作负载可以降低精度，这有效地使计算吞吐量翻了一番。请注意，每个 SM 的 Tensor 核心数量似乎没有变化，FP16 *** 作中每个 Tensor 核心的吞吐量保持不变。但是新的 Tensor 核心显然是 DLSS 3 的要求。

虽然架构更新很棒，但 Nvidia 也一直在努力进行软件更新。DLSS 3 现已正式发布（在新标签中打开），在主题演讲期间展示的几款游戏中都支持它，并且可能还会有更多游戏。Nvidia 在《赛博朋克 2077》中使用 DLSS 3 与 DLSSS 2 相比，性能提升了 63%，大概在最终输出上具有相似的视觉保真度。

显然，我们无法测试 DLSS 3，所以我们必须拭目以待，但 DLSS 2 已经为整体升级质量设定了很高的标准。DLSS 3 将采用现有的输入——帧数据、运动矢量、深度缓冲区和前一帧——并添加一个新的光流加速。

提供的信息表明，DLSS 3 和 OFA 可以通过查看先前的数据从单个源图像中生成多个帧。所以理论上，它可能会使帧速率翻倍，并且在运动中，它可能有助于使游戏看起来更流畅，尽管我们确实想知道单个帧比较如何站起来。在很多方面，这几乎听起来像是来自 VR 的异步空间扭曲 (ASW)，它获得了一些 AI 增强功能并与升级一起应用，如果你想提高帧率，这实际上听起来很聪明。

然而，最大的问题之一是 DLSS 3 仅适用于 RTX 40 系列（及更高版本）GPU。如果游戏开发者想要迎合更广泛的游戏玩家，他们基本上需要同时包含 DLSS 2 和 DLSS 3 支持，此时他们不妨也添加 FSR 2.0 和 XeSS 支持。这可能不会发生，但由于 Ampere 和更早的 RTX GPU 没有新的光流加速，也许有一种备用模式，它们只需使用 DLSS 2.x 算法运行。

值得注意的是，到目前为止，所有版本的 DLSS 都可以在每张 RTX 卡上运行，从低端的RTX 2060和RTX 3050一直到RTX 3090 Ti. 然而，这些 GPU 上潜在的 Tensor 核心计算存在巨大差异，RTX 2060 仅提供约 52 teraflops 的 FP16，而 3090 Ti（具有稀疏性）则高达 640 teraflops。现在，借助 RTX 40 系列上的 FP8，即使是假设的 20 SM RTX 4050 也将提供大约 200 teraflops 的计算，而 RTX 4090 的吞吐量高达 1.4 petaflops。

英伟达放弃 Atlan，推出具备2000 TFLOPS性能的Thor

作为其秋季 GTC 2022 活动的一部分，NVIDIA 今天发布的大量公告中，该公司正在对其 DRIVE 汽车 SoC 计划进行令人惊讶的更行，且立即生效。NVIDIA表示将取消Atlan，这是他们计划用于 2025 年汽车的后 Orin SoC。取而代之的是，NVIDIA 宣布推出 Thor，这是一款功能更强大的 SoC，将于 2025 年推出。

NVIDIA 的 Atlan SoC 于 2021 年春季 GTC 首次亮相，NVIDIA 宣布将其作为下一代汽车 SoC，以接替（现在的）Orin SoC。在宣布时，Atlan 计划成为一款高性能 SoC，提供 1000 TOPS 的 INT8 推理性能，采用下一代（Lovelace）GPU 设计和下一代 Grace CPU 设计。该芯片甚至集成了 BlueField DPU 作为网络和安全处理器，旨在提供一个可以处理自动驾驶汽车所需的所有计算功能的 SoC。

但无论 Atlan本应是什么，现在都已不复存在。截至 NVIDIA 新的 DRIVE SoC 路线图，Atlan 已被废弃。取而代之的是一个新的 SoC——Thor，它比Atlan 更强大。

与 2021 年的 Atlan 公告一样，NVIDIA 仅在发布之前发布了有关 Thor 的少数细节。高级细节包括，没有命名特定的 NVIDIA CPU 和 GPU 架构，但 SoC 正在利用 Grace CPU、Ampere GPU 架构和 Lovelace GPU 架构首次引入的功能。与此同时，NVIDIA 关于此事的博客文章确实更进一步，指出 SoC 使用了 Arm 迄今为止秘密的 Poseidon CPU 内核的汽车增强 (AE) 版本。我们对Poseidon 知之甚少，它是 Arm 正在开发的下一代高性能 CPU 内核，将用于其下一代 Neoverse V 系列平台，取代刚刚发布的Neoverse V2。

从性能的角度来看，Thor 计划使用新标准化的 FP8 数据格式提供 2 PFLOPS (2000 TFLOPS) 的浮点推理性能。尽管与 Atlan 的 1000 TFLOPS INT8 数字相比，这不是一个公平的比较，但它仍然代表了 8 位精度计算吞吐量的两倍。SoC 的张量核心还将采用 NVIDIA 的 transformer engines，使 SoC 能够进一步加速transformer networks的处理。

值得注意的是，整合所有这些性能将使 Thor 成为一个非常庞大的芯片。虽然 NVIDIA 没有宣布工艺节点，但他们已经表示它将使用 770 亿个晶体管，这比他们的新旗舰 GH100 GPU 少了 30 亿个晶体管。NVIDIA 的性能声明并未表明是否使用了矩阵稀疏性，但即使是这样，Thor 的 FP8 性能也将是 NVIDIA 旗舰 GPU 的一半。所有这些都突显了 NVIDIA 对计划中的 SoC 的极端性能目标。

虽然 NVIDIA 的芯片模型在 AGX 板上以单芯片配置显示它，但今天的公告还明确提到了 NVLink 芯片到芯片 (NVLink-C2C) 芯片互连技术。这是一个奇怪的提及，因为 NVIDIA 的关键艺术并没有显示 Thor 是基于chiplet的。这可能意味着 NVIDIA 将转而使用 NVLink-C2C 来实现更强大的多芯片 DRIVE AGX 板（ala Pegasus），或者很可能 Thor 是基于chiplet的设计，而 NVIDIA 故意将其通用化艺术。

除此之外，NVIDIA 没有提供有关 SoC 的任何进一步技术细节。因此，有关使用的内存类型、GPU 架构和其他功能块的详细信息仍有待观察。

在这一点上，NVIDIA 也没有详细说明为什么他们取消了 Atlan 来代替 Thor。Thor 无疑是一个更强大的设计，并且似乎包含了一些在 Atlan 上找不到（或至少从未公开过）的新功能。这是否意味着 NVIDIA 正在以某种方式引入本应是后 Atlan 芯片的芯片，或者他们是否因为客户需要更好的自动驾驶汽车 AI 推理性能而放弃了 Atlan，还有待观察。

抛开硬件升级不谈，很明显，NVIDIA 正在为与 Atlan 相同的细分市场设计 Thor。也就是说，它是一种高性能的单芯片设计，用于处理自动驾驶汽车的所有计算需求，从信息娱乐系统和传感器融合到实际的自动驾驶算法本身。与 Atlan 一样，其目标是用一台可以完成所有工作的计算机取代目前汽车内的独立计算机，利用具有广泛隔离（包括 MIG）的功能安全设计技术来防止单独的任务相互干扰。

然而，也许最令人惊讶的是，SoC 的这种变化预计不会影响 NVIDIA 的 SoC 交付日期。英伟达表示，他们将在 2025 年为汽车厂商提供Thor，这与亚特兰的计划到达时间相同。因此，虽然魔鬼在细节中，但在高水平上，英伟达的目标是提供接近相同的Thor时间，因为他们会交付Atlan 。不过值得注意的是，虽然 NVIDIA 此前曾宣布 Atlan 将在 2023 年出样，但尚未发布关于 Thor 的此类公告。因此，Thor 的送样日期可能最终会晚于 Atlan 的送样日期。

H100已经全面投产

在企业方面，英伟达今天会上期待最久的更新之一是 NVIDIA 的 H100 “Hopper”加速的出货状态。因为根据之前说法，该加速最初预计在今年第三季度登陆。。据 NVIDIA 称，该加速已全面投入生产，首批系统将于 10 月从 OEM 处发货。

H100在 3 月份的 NVIDIA 年度春季 GTC 活动中首次亮相，是 NVIDIA面向服务器、超大规模计算机和类似市场的下一代高性能加速。H100 基于 Hopper 架构，基于台积电的 4nm“4N”工艺，是 NVIDIA 非常成功的 A100 加速的后续产品。除其他变化外，该公司最新的加速实现了 HBM3 内存，在其张量内核中支持transformer模型，支持动态编程，具有更强大隔离的多实例 GPU 的更新版本，以及两者的计算吞吐量都大大提高矢量和张量数据类型。基于 NVIDIA 的 800 亿晶体管 GH100 GPU，H100 加速也在功耗方面突破极限，最大 TDP 为 700 瓦。

鉴于 NVIDIA 的春季 GTC 活动与他们这一代的制造窗口不完全一致，今年早些时候的 H100 公告称 NVIDIA 将在第三季度出货第一批 H100 系统。但是，NVIDIA 今天概述的更新交付目标意味着第三季度的日期已经推迟。好消息是，正如 NVIDIA 所说，H100 正在“全面生产”。坏消息是，生产和集成似乎并没有按时开始。目前，该公司预计第一批生产系统要到 10 月，也就是第四季度开始时才能到达客户手中。

更进一步，系统和产品推出的顺序基本上与 NVIDIA 的惯常策略相反。NVIDIA 的合作伙伴并没有首先从基于其最高性能 SXM 外形部件的系统开始，而是从性能较低的 PCIe 卡开始。也就是说，10 月份出货的第一批系统将使用 PCIe 卡，而 NVIDIA 的合作伙伴将在今年晚些时候推出集成了更快的 SXM 卡和他们的 HGX 载板的系统。

值得一提的是，NVIDIA 的旗舰 DGX 系统通常是最早发布的系统之一，现在将成为最后一批。NVIDIA 今天开始接受 DGX H100 系统的预订，预计在 2023 年第一季度（即从现在起的 4 到 7 个月）交付。这对 NVIDIA 的服务器合作伙伴来说是个好消息，他们在过去几代人中不得不等待 NVIDIA，但这也意味着 H100 作为产品在开始在系统中出货时将无法发挥最大的作用下个月。

在与媒体的预先简报中，英伟达没有详细解释为什么 H100 最终会延迟。尽管在高层发言，但公司代表确实表示延迟不是出于组件原因。同时，该公司引用了 PCIe 卡相对简单的原因，因为 PCIe 系统首先出货。这些在通用 PCIe 基础架构中主要是即插即用的，而 H100 HGX/SXM 系统更复杂，需要更长的时间才能完成。

两种外形尺寸之间也存在一些显著的功能差异。SXM 版本是唯一使用 HBM3 内存的版本（PCIe 使用 HBM2e），而 PCIe 版本需要更少的工作 SM（114 对 132）。因此，NVIDIA 有一些回旋余地来隐藏早期产量问题，如果这确实是一个因素的话。

让 NVIDIA 更复杂的是，DGX H100 系统基于英特尔反复延迟的第 4代Xeon 可扩展处理器 ( Sapphire Rapids )，目前还没有完全确定的发布数据。不太乐观的预测是它在第一季度推出，这与 NVIDIA 自己的发布日期一致——尽管这很可能只是巧合。无论哪种方式，Sapphire Rapids 缺乏普遍可用性都没有给 NVIDIA 带来任何好处。

最终，由于 NVIDIA 无法在明年之前推出 DGX，它将成为 NVIDIA 的服务器合作伙伴，率先推出 HGX 系统——可能使用当前一代主机，或者如果及时准备好，可能使用 AMD 的 Genoa 平台。在计划推出 H100 系统的公司中，包括 Supermicro、戴尔、HPE、技嘉、富士通、思科和 Atos。

同时，对于急于在购买任何硬件之前试用 H100 的客户，H100 现在可在 NVIDIA 的 LaunchPad 服务中使用。

最后，当我们讨论 H100 的主题时，NVIDIA 还利用本周的 GTC 宣布更新其 NVIDIA AI Enterprise 软件堆栈的许可。H100 现在附带一个 5 年的软件许可证，这是值得注意的，因为 5 年订阅通常是每个 CPU 插槽 8000 美元。

编辑：黄飞

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2997576.html