用于端点AI加速的前10种处理器_技术

虽然 AI 和 ML 应用程序的加速仍然是一个相对较新的领域，但各种处理器如雨后春笋般涌现，几乎可以加速任何神经网络工作负载。从处理器巨头到业内一些最新的初创公司，它们都提供了不同的东西——无论是针对不同的垂直市场、应用领域、功率预算还是价格点。这是今天市场上的快照。

应用处理器 Intel Movidius Myriad X由爱尔兰初创公司 Movidius 开发，并于 2016 年被英特尔收购，Myriad X是该公司的第三代视觉处理单元，也是第一款配备专用神经网络计算引擎的产品，每台可提供 1 tera 运算第二（TOPS）专用深度神经网络（DNN）计算。神经计算引擎直接与高吞吐量智能内存结构接口，以避免在传输数据时出现任何内存瓶颈。它支持 FP16 和 INT8 计算。Myriad X 还具有一组 16 个专有 SHAVE 内核以及升级和扩展的视觉加速。

Myriad X 可在英特尔的神经计算棒 2 中使用，它实际上是一个 USB 拇指驱动器形式的评估平台。它可以插入任何工作站，让人工智能和计算机视觉应用程序在专用的 Movidius 硬件上快速启动和运行。

NXP Semiconductors i.MX 8M Plus i.MX 8M Plus是一款异构应用处理器，采用芯原（Vivante VIP8000）的专用神经网络加速 IP 。它为消费和工业物联网（IIoT）中的端点设备的推理提供 2.3 TOPS 的加速，足以进行多对象识别、40，000 个单词的语音识别，甚至是医学成像（MobileNet v1，每秒 500 张图像）。

除神经网络处理器外，i.MX 8M Plus 还具有运行频率为 2 GHz 的四核 Arm Cortex-A53 子系统，以及 Cortex-M7 实时子系统。

对于视觉应用，有两个图像信号处理器支持两个用于立体视觉的高清摄像头或一个 12 兆像素（MP）摄像头。对于语音，该设备包括一个 800-MHz HiFi4 音频数字信号处理器（DSP），用于对语音数据进行预处理和后处理。

NXP 的 i.MX 8M Plus 是该公司首款配备专用神经网络加速的应用处理器。它专为物联网应用而设计。

XMOS xcore.ai xcore.ai旨在实现物联网（AIoT）应用程序中的语音控制。该设备是一款交叉处理器（具有应用处理器的性能和微控制器的低功耗实时 *** 作），专为语音信号的机器学习推理而设计。

它基于 XMOS 专有的 Xcore 架构，它本身建立在称为逻辑内核的构建块上，可用于 I/O、DSP、控制功能或 AI 加速。每个 xcore.ai 芯片上有 16 个这样的内核，设计人员可以选择为每个功能分配多少个。将不同的功能映射到固件中的逻辑内核允许创建完全用软件编写的“虚拟 SoC”。XMOS 为 Xcore 增加了用于机器学习工作负载的矢量管道功能。

xcore.ai 支持 32 位、16 位、8 位和 1 位（二值化）网络，提供 3，200 MIPS、51.2 GMACC 和 1，600 MFLOPS。它具有 1 MB 的嵌入式 SRAM 以及用于扩展的低功耗 DDR 接口。

XMOS 的 xcore.ai 基于专有架构，专为语音处理应用程序中的 AI 工作负载而设计。

汽车 SoC Texas Instruments Inc. TDA4VM作为用于汽车高级驾驶辅助系统（ADAS）的Jacinto 7 系列的一部分，TDA4VM 是 TI 首款具有专用片上深度学习加速的片上系统（SoC）。该模块基于 C7x DSP 加上内部开发的矩阵乘法加速（MMA），可实现 8 TOPS。

SoC 可以处理来自前置摄像头的高达 8 MP 或四到六个 3 MP 摄像头加上雷达、激光雷达和超声波传感器的组合的视频流。例如，MMA 可用于在自动代客泊车系统中对这些输入执行传感器融合。TDA4VM 专为 5 到 20 W 之间的 ADAS 系统而设计。

该设备仍处于预生产阶段，但开发套件现已上市。

TI TDA4VM 适用于允许车辆感知其环境的复杂汽车 ADAS 系统。

GPU Nvidia Corp. Jetson Nano Nvidia 著名的Jetson Nano是一个小型但功能强大的图形处理单元（GPU）模块，用于端点设备中的 AI 应用程序。Nano 模块上的 GPU 建立在与 Jetson 系列的较大成员（AGX Xavier 和 TX2）相同的 Maxwell 架构上，具有 128 个内核，并且能够达到 0.5 TFLOPS，足以在来自高端的多个数据流上运行多个神经网络。据该公司称，分辨率图像传感器。它在使用时仅消耗 5 W。该模块还具有四核 Arm Cortex-A57 CPU。

与 Nvidia 范围内的其他部件一样，Jetson Nano 使用 CUDA X，这是 Nvidia 的神经网络加速库集合。价格低廉的 Jetson Nano 开发套件随处可见。

Nvidia 的 Jetson Nano 模块包含一个强大的 GPU，具有 128 个核心，用于边缘的 AI。

消费类协处理器 Kneron Inc. KL520美国-台湾初创公司 Kneron 的第一款产品是KL520神经网络处理器，专为智能家居、安全系统和移动设备等应用中的图像处理和面部识别而设计。它针对运行卷积神经网络（CNN）进行了优化，这是当今图像处理中常用的类型。

KL520 可以运行 0.3 TOPS 并消耗 0.5 W（相当于 0.6 TOPS/W），该公司表示，鉴于该芯片的 MAC 效率很高（超过 90%），这足以进行准确的面部识别。芯片架构是可重构的，可以针对不同的 CNN 模型进行定制。该公司的互补编译器还使用压缩技术来帮助在芯片资源内运行更大的模型，从而帮助节省功耗和成本。

KL520 现已上市，也可以在制造商研扬科技（M2AI-2280-520）的加速卡上找到。

Kneron 的 KL520 使用可重新配置的架构和巧妙的压缩来在移动和消费设备中运行图像处理。

Gyrfalcon Lightspeeur 5801专为消费电子市场设计，Gyrfalcon 的Lightspeeur 5801在 224 mW 功耗（相当于 12.6 TOPS/W）下提供 2.8 TOPS，延迟为 4 ms。与其他架构相比，该公司使用了一种特别节能的内存处理器技术。通过在 50 到 200 MHz 之间改变时钟速度，功耗实际上可以与时钟速度进行权衡。Lightspeeur 5801 包含 10 MB 内存，因此整个模型都可以安装在芯片上。

这部分是该公司的第四款生产芯片，已经在 LG 的 Q70 中端智能手机中找到，用于处理相机效果的推断。USB 拇指驱动器开发套件 5801 Plai 插头现已上市。

超低功耗 Eta Compute ECM3532 Eta Compute 的首款量产产品ECM3532专为物联网电池供电或能量收集设计中的 AI 加速而设计。图像处理和传感器融合中的始终在线应用可以通过低至 100 µW 的功率预算来实现。

该芯片有两个内核——一个 Arm Cortex-M3 微控制器内核和一个 NXP CoolFlux DSP。该公司使用专有的电压和频率缩放技术，可以调整每个时钟周期，以从两个内核中榨取最后一滴电源。机器学习工作负载可以由任一内核处理（例如，某些语音工作负载更适合 DSP）。

ECM3532 现已提供样品，预计将于 2020 年第二季度开始量产。

SynTIant Corp. NDP100美国初创公司 SynTIant 的NDP100处理器设计用于在电力紧张的应用中对语音命令进行机器学习推理。其基于内存处理器的芯片消耗的有功功率低于 140 µW，并且可以运行用于关键字发现、唤醒词检测、说话者识别或事件分类的模型。该公司表示，该产品将用于实现耳塞、助听器、智能手表和遥控器等消费设备的免提 *** 作。开发套件现已上市。

Syntiant 的 NDP100 器件专为超低功耗应用中的语音处理而设计。

GreenWaves Technologies GAP9 GAP9 是法国初创公司 GreenWaves 的首款超低功耗应用处理器，拥有一个由九个 RISC-V 内核组成的强大计算集群，其指令集经过大量定制以优化功耗。它具有双向多通道音频接口和 1.6 MB 内部 RAM。

GAP9 可以处理电池供电物联网设备中图像、声音和振动传感的神经网络工作负载。GreenWaves 的数据显示 GAP9 在 160 × 160 图像上运行 MobileNet V1，在 12 毫秒内通道缩放为 0.25，功耗为 806 μW/帧/秒。　　

审核编辑：彭静

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2998590.html

用于端点AI加速的前10种处理器

发表评论

评论列表（0条）