英特尔发布云端训练推理两用的可编程芯片_技术

英特尔在人工智能领域投入颇多，自 2015 年起，便陆续收购了 Altera、Nervana Systems、Movidius 以及 Vertex. ai，现在英特尔除 FPGA 产品线外，还推出了 Nervana 深度学习加速，在 Hot Chips 2019 大会上，英特尔公布了 Nervana NNP 神经网络处理器的相关细节，包括云端训练用神经网络处理器 NNP-T 和云端推理用神经网络处理器 NNP-I，据英特尔称，NNP-I 已经被 Facebook 采用。

英特尔 Nervana NNP-I，为推理而专门设计，又称 Spring Hill，利用英特尔 10nm 制作工艺与 Ice Lake 内核。

NNP-I 基于英特尔 10nm 制作工艺的 Ice Lake 处理器架构设计，功耗在 10-50w 之间。在数据中心推理工作负载中，NNP-I 的运算效率可达 4.8TOPs/W；推理计算引擎 ICE 则主要由深度学习计算网格、可编程矢量处理器、高带宽内存接口、超大本地缓存组成，可支持 FP16、INT8、INT 4/2/1 的浮点运算。

此外，NNP-I 提供高度可编程性，随着 AI 在每个工作负载中普及，拥有一个易于编程的专用推理加速，并且对包括 ONNX，nGraph，OpenVINO，C++++ 等主要深度学习框架的支持，有助于公司充分利用其数据进行可编程设计。

英特尔称，随着人工智能领域对复杂计算的需求增长，这款新芯片将可为大型公司使用的英特尔至强（Intel Xeon）处理器提供帮助。Facebook 已经开始使用该人工智能处理器。英特尔 Nervana NNP-T（神经网络训练处理器），又称 Spring Crest，将由台积电制造，并采用 16nm FF+ 工艺。

Nervana 在被英特尔收购之前，就已经利用台积电的 28nm 处理器构建起第一代 Lake Crest 设计。因此，作为相关设计规则与制造工艺的继承者，Spring Crest 当中仍然保留了不少台积电的专利成果。英特尔方面在新一代芯片中也继续沿用台积电的工艺，但同时将更多自己的专利成果整合到架构当中——包括功率控制与偏移技术——由此创造出这款集合了“英特尔最佳元素与 Nervana 最佳元素”的芯片。

NNP-T 的计算核心拥有 270 亿晶体管，包括 24 个 Tensor Processors（TPC）。除了 TPC 外，芯片裸片中还有 60MB 的 SRAM 以及一些专用的接口，如 IPMI、I2C 及 16 条 PCI-E 4.0 通道。芯片的工作频率为 1.1GHz，风冷条件下功率配置为 150W 到 250W，可通过水冷获得更强大的性能表现。同时 NNP-T 还拥有 OCP 卡及 PCI-E 两种规格，以供数据中心选择。

英特尔公司希望通过开源 nGraph 库以及负责将各框架连接至硬件后端的编译器，对大部分软件复杂性进行抽象。英特尔目前正在使用的框架包括 Paddle Paddle、Pytorch 以及 TensorFlow。

一级客户将拥有对底层硬件的访问权限，而其他“更为广泛”的客户将能够访问内核库。英特尔公司将在明年开放自己的高级编程语言，允许客户根据需求编写出自己的内核。此举的主要目标是实现简化，过高的复杂性最终必将占用掉宝贵的芯片面积。因此，自定义 ISA 将非常简单，确保英特尔将芯片区主要分配给乘法器与存储器。此外，芯片巨头还构建起独家深度学习原语指令。

英特尔公司表示，其将在今年年底之前向首批客户提供 NNP-T 样品，主要包括各一级云服务供应商。接下来，2020 年 NNP-T 产品将正式大规模投放市场。

如今，人工智能与机器学习已经风靡数据中心，而随着以 AI 训练类工作负载为主体的各类解决方案的快速兴起，GPU 也开始成为超级计算领域一颗耀眼的新星。2008 年，还没有任何一台超级计算机使用 GPU 进行计算——其仍主要依靠久经考验的 CPU。但现在，全球超算五百强榜单当中，有 80% 的计算能力由 GPU 贡献而来。相信很多朋友已经意识到，高性能计算与超级计算的发展方向正朝着更为广泛的数据中心移动，而 AI/ML 类工作负载的激增无疑将给英特尔在数据中心领域的主导地位构成严重威胁。毕竟，每安装一块 GPU，都会有几块至强处理器失去“工作岗位”。

英特尔副总裁兼人工智能产品集团总经理 Naveen Rao 表示，数据中心和云计算需要访问高性能和可扩展的通用计算，以及对复杂 AI 应用程序的专用加速。在未来的 AI 愿景中，需要采用“从硬件到软件再到应用程序”的整体方法。

本次英特尔推出的 Nervana 神经网络处理器，都将用于数据中心，NNP-T 用于云端训练，NNP-I 用于云端推理。而且就英特尔官方数据，NNP-I 在推理上的速度已经超过英伟达 Tesla P4，虽不及 V100，但差距不大。尽管英特尔此次推出芯片的制作工艺还不是最先进的 7nm，在性能上也稍微有些不足，但英特尔的此次“亮剑”无疑给出一个强烈的信号——AI 硬件领域的竞争将会更加激烈。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2533126.html

英特尔发布云端训练推理两用的可编程芯片

发表评论

评论列表（0条）