基于Altera浮点IP核的浮点矩阵相乘运算的实现和改进设计_技术

　　嵌入式计算作为新一代计算系统的高效运行方式，应用于多个高性能领域，如阵列信号处理、核武器模拟、计算流体动力学等。在这些科学计算中，需要大量的浮点矩阵运算。而目前已实现的浮点矩阵运算是直接使用VHDL语言编写的浮点矩阵相乘处理单元，其关键技术是乘累加单元的设计，这样设计的硬件，其性能依赖于设计者的编程水平。此外，FPGA厂商也推出了一定规模的浮点矩阵运算IP核，虽然此IP核应用了本厂家的器件，并经过专业调试和硬件实测，性能稳定且优于手写代码，但仍可对其进行改进，以进一步提高运算速度。

　　1 Altera浮点矩阵相乘IP核原理

　　Altera公司推出的浮点矩阵相乘IP核ALTFP_MATRIX_MULT，是在Quartus软件9.1版本以上的环境中使用，能够进行一定规模的浮点矩阵相乘运算，包含A、B矩阵数据输入，数据浮点乘加，数据缓存及相加输出四大部分。其中最能体现浮点计算性能的是浮点乘加部分，而周围的控制电路及输出则影响到系统的最高时钟频率，间接地影响系统整体性能。

　　整个矩阵相乘电路原理是将输入的单路数据（A、B矩阵共用数据线），通过控制器产生A、B矩阵地址信号，控制着A矩阵数据输出和B矩阵数据输出，并将数据并行分段输出到浮点乘加模块进行乘加运算，之后串行输出到一个缓存器模块中，再以并行方式输出到浮点相加模块，最后获得计算结果。从其原理可以看出，在数据输入输出方面仍有许多可改进的地方。

　　2 IP核存在的缺陷及改进

　　2.1 存在缺陷

　　（1）输入数据带宽的不均衡性。在矩阵A、B的数据输入时，Altera的IP核将A矩阵数据存于M144K的Block RAM中，而将B矩阵数据存于M9K的Block RAM中，导致IP核中A矩阵数据的带宽小于B矩阵数据的带宽，并需要一定数量的寄存器组使A矩阵数据带宽能够匹配于B矩阵数据带宽。由此可见，A、B矩阵数据的存储受到器件限制和存储约束，同时由于在浮点乘加模块的输入端（A、B矩阵数据）带宽不同，造成A矩阵数据的输入需要额外的处理时间。

　　（2）加载数据的不连贯性。在矩阵数据加载时，IP核通过将数据分段成等分的几部分，用于向量相乘。由于矩阵A存储带宽窄需要4步寄存（由Blocks决定），在第3个周期时才加载数据B用于计算，送到一个FIFO中存储；在第6个时钟周期时加载矩阵A分段的第二部分进行各自的第二部分计算，最后当计算到第15个周期时，才可通过浮点相加，计算出矩阵C的第一个值，之后计算出矩阵C的其他值C11。从上述结构可见，在分段相乘之后，采用先对一个FIFO进行存储，存满后再对下一个数据FIFO进行存储，造成时间上浪费过多。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/dianzi/2497433.html

基于Altera浮点IP核的浮点矩阵相乘运算的实现和改进设计

发表评论

评论列表（0条）