基于4DSP+FPGA架构数据处理板电路设计与分析

基于4DSP+FPGA架构数据处理板电路设计与分析,第1张

为了满足超高性能数据处理以及低功耗、简单可编程性的应用,设计了一款基于TI TMS320C6678芯片和Xilinx公司XC5VSX95T芯片的4DSP+FPGA架构的数据处理板,同时设计了高带宽的数据输入输出接口以及相关的时钟、电源和复位电路,并通过具体的硬件电路实现。该数据处理板可广泛应用于航空设备、车载设备、恶劣条件下工作的特种设备,将有效提高设备的数据处理性能。

0 引言

随着数字信号处理器(Digital Signal Processor,DSP)和现场可编程门阵列器件(Field-Programmable Gate Array,FPGA)的发展,DSP+FPGA架构在数据及信号处理系统中的应用愈来愈广泛。传统的DSP芯片一般采用冯-诺依曼(Von Neumann)结构或某种类型扩展,此种结构本质上是串行的,当遇到需要处理的数据量大且处理速度高,但对运算结构相对较简单的底层信号处理算法来说显不出优点,适合采用FPGA硬件实现。因此,采用DSP+FPGA架构的系统可以将二者优点结合起来,兼顾速度和灵活性,既满足底层信号处理要求,又满足高层信号处理要求。

德州仪器(TI)推出TMS320C66x系列最新数字信号处理器TMS320C6678与 TMS320TCI6609,是目前具有最高定/浮点运算能力的一代数字信号处理器,为开发人员带来业界性能最高、功耗最低的DSP。TI TMS320C6678多核DSP非常适合需要超高性能、低功耗以及简单可编程性场合的应用。TI不但为HPC(High Performance Computing)提供免费优化库,无需花费时间优化代码,即可便捷地实现最高性能,而且还支持C语言与OpenMP等标准编程语言,因此开发人员可便捷地移植应用,启动C66x多核DSP的开发[1],充分发挥低功耗与高性能优势。为了满足超高数据处理性能、低功耗以及简单可编程性场合的应用,设计了一款基于TI8核高性能DSP 芯片TMS320C6678和Xilinx公司FPGA芯片XC5VSX95T的数据处理电路模块,在6 U尺寸的模块上设计了4片高性能DSP,定点运算处理能力可达1 280 GMAC,浮点运算处理能力可达640 GFLOP,并设计了大容量DDR3内存(每片DSP内存为1 GB,共4 GB)和2 GB的固态存储,使得其可实现高性能、高数据吞吐量的定点/浮点运算。

模块设计了大吞吐量的串行RapidIO(Serial Rapid IO,SRIO)和千兆以太网,对外与其他模块进行数据通信,数据带宽达60 Gb/s,使得大数据量的输入、大数据量处理和输出成为现实。

1 电路总体设计

数据处理模块的电路总体设计基于4×DSP+FPGA架构,电路总体设计框图如图1所示。

基于4DSP+FPGA架构数据处理板电路设计与分析,基于4DSP+FPGA架构数据处理板电路设计与分析,第2张

从功能上看,数据处理模块可分为DSP小系统、FPGA模块、RapidIO数据交换模块[2]、以太网模块、AD转换模块、各电平转换模块及其他电源、时钟和控制逻辑等辅助电路,加上DSP、FPGA等必要的驱动程序和板内的控制逻辑,形成一个完整的、一体化的数字系统硬件平台。

1.1 DSP小系统

DSP小系统主要包含:DSP芯片组、DDR3内存、Flash数据存储、RS232接口、SRIO接口、SPI(Setial Peripheral Interface)接口。

如图1所示,第一个DSP小系统作为主系统,其他3个DSP系统作为从系统。4片DSP之间的通讯如下:在启动过程中,从DSP给主DSP送1个GPIO(General Purpose Input/Output)信号,通过电平方式表示已经启动起来。系统启动后,从DSP的信息通过SRIO发送给主DSP。J30J-31为调试接口,对外提供DSP的JTAG(Joint Test Action Group)口(板内成菊花链[3])、串口、4个控制LED灯的GPIO口以及CPLD、FPGA的JTAG加载口。4个DSP的JTAG形成菊花链[4],连到调试接口J30J-31上。同时,4个DSP的串口都连到调试接口上方便调试,该模块设计只用主DSP的串口。两个DSP之间,用超链接(Hyperlink)进行通讯[1]。

1.1.1 DSP

电路设计采用4片TI公司的TMS320C6678芯片,配合外围时钟、复位、DDR3、Flash等,为整个模块提供数字处理平台。TMS320C6678芯片为高性能八核数字信号处理器,外频采用100 MHz,内核主频为1 GHz,采用扩展温度型号,工作温度-40 ℃~+100 ℃。该芯片内部集成8个C66x CorePac DSPs的核,每个核工作在1 GHz。在C66x 器件上,通过扩展SIMD(Single Instruction Multiple Data)指令的宽度,提高了向量处理能力,可以处理128 bit的向量指令[1]。例如,QMPY32 指令可以执行两个32 bit数据向量的元素对元素相乘。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/2570828.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-07
下一篇 2022-08-07

发表评论

登录后才能评论

评论列表(0条)

保存