FPGA以擅长高速并行数据处理而闻名学习FPGA实现数据计算

楼主

责任全在软件

467 主题
471 帖子
3316 积分

身份：LV5 资深技术员

E币：1325

发消息

 301

 0

发表于 2023-11-30 15:53:14

显示全部楼层

（深度学习FPGA实现数据计算）一、前言FPGA以擅长高速并行数据处理而闻名，从有线/无线通信到图像处理中各种DSP算法，再到现今火爆的AI应用，都离不开卷积、滤波、变换等基本的数学运算。但由于FPGA的硬件结构和开发特性使得其对很多算法不友好，之前本人零散地总结和转载了些基本的数学运算在FPGA中的实现方式，今天做一个系统的总结归纳。二、FPGA中的加减乘除1.硬件资源Xilinx 7系列的FPGA中有DSP Slice ，叫做“DSP48E1”这一专用硬件资源，这是一个功能强大的计算单元，单就用于基本运算的部分有加减单元和乘法器。因此可以直接用HDL语言中的加、减、乘符号实现变量与常量间运算操作以及变量与变量间操作。而四则运算中的除法没有基本的逻辑计算单元可以对应，因此计算除法需要调用除法器IP核。2.确认数据的表示范围有符号数：（补码）-2^(N-1) ~ 2^(N-1)-1 如N = 8，则表示范围是：-128 ~ 127.无符号数：0~2^N-1 如N = 8，则表示范围是：0~255.定点数：2Q13 范围是：-4~4-2^(-13) 精度是：2^(-13)3.结果有效位宽首先讨论结果位宽问题。在FPGA中往往采用定点运算替代浮点运算来降低硬件资源占用率和计算延迟，其中的精髓就是精度与资源的权衡。若按照保留计算结果的全部精度，N bit数与Mbit数相加结果需要N+1bit（N>M）。N bit数与M bit数相乘之积需要N+M bit。而减法可以转化为加法，除法则转换为乘法和加减法的组合。如果操作数是定点小数，则在满足以上准则的前提下，A与B相加（A小数点位数>B小数点位数），结果小数点位数与A相同；A与B相乘（小数点位数分别为p和q），结果小数点位数是p+q。4.定点运算步骤然而（话锋一转），在大多数场合下，不需要以上这么多位来保留计算结果，因为我们在进行数学运算时，已经知道输入数据的大致范围，一个数除以1000和除以1结果数据所需最小位宽能一样么？加减运算的操作步骤是先对齐小数点位数，后加减。而乘法是先计算后取小数点。这实际上与十进制运算一致，我们看看具体的计算步骤：整数之间加减以及乘法的统一步骤：预估结果位宽N --> 按照结果位宽扩展操作数符号位以防止溢出 --> 运算取低N位。定点小数加减运算步骤：预估结果位宽N --> 得到结果小数点后位数 --> 对齐操作数整数位和小数位，确定扩展位宽M（M≥N） --> 加减运算取低M位。定点小数乘法运算步骤：预估结果位宽N --> 得到结果小数点后位数 --> 扩展操作数位宽 --> 相乘取低N位变量与常量运算化简以上讨论的均是两变量之间的运算规则，当然结果位宽及格式准则是适用的。变量与常量的运算的优势在于，可以将乘除法转换成加减以及移位运算实现，从而降低计算复杂度和延迟。当常数项C为2的整数次幂（C = 2^p），则乘C等于变量左移p位，除以C等于变量右移p位。几个在书中看到的几个简单示例：A16 = A <<4　　A20 = A<<4 + A<<2.　　A除以2 = A >>1　　A除以3 = A*(0.25+0.0625+0.0156) = A>>2+A>>4+A>>6　　A除以5 = A*(0.125+0.0625+0.0156) = A>>3 + A>>4 + A>>6.其中乘法完全等价对应的移位相加操作，而除法的移位代替会损失精度。三、如何计算特殊函数FPGA内部的DSP Slice可以直接进行最基本的加法和乘法运算，但是对于其他比如对数、指数、三角函数、开根号等特殊函数就无能为力了。这时需要借助算法对这些特殊函数进行变换和简化。FPGA实现复杂函数的常用手段一个是级数展开，再一个就是CORDIC算法。关于CORDIC的理论知识和具体内容详见参考文献2，这里主要阐述CORDIC的IP核调用以及应用示例。CORDIC算法就是通过一定的手段，将很多复杂的特殊函数变为相加移位运算，这一点对于硬件芯片实现来说非常友好。CORDIC分为旋转模式和矢量模式，配合圆周坐标、线性坐标和双曲线坐标会有六种组合。现在通过查看user guide得知CORDIC IP核的接口及主要特性。 1-11接口包括输入笛卡尔数据输入通道、相位输入通道、全局信号以及数据输出通道。该IP核有两种结构：串行和并行，可根据数据吞吐量需求选择，并行结构可以每个时钟输出一个计算结果。如果计算sinh和cosh，要向phase通道输入相位信息，X_OUT是cosh(phase),Y_OUT是sinh(phase).输入phase必须满足数据范围，否则出现不可预计结果。输出帧结构及数据范围如下： 1-12仿真结果： 1-13仿真波形表明，计算结果与MATLAB浮点运算相近，满足一般计算需求。若想提高精度，可以增加CORDIC输出数据位宽。