AXI总线协议

(一)、概述

AXI (高性能扩展总线接口,Advanced eXtensible Interface)是ARM AMBA 单片机总线系列中的一个协议,是计划用于高性能、高主频的系统设计的。AXI协议是被优化用于通过使用Xilinx进行的相应的开发来做FPGA实现,它被用作FPGA 设计的IP 核之间的一种通信方式。


关键特性

1、地址/控制阶段和数据阶段是分开的,即master(主机)和slave(从机)之间有专门的地址/控制通道,还有专门的数据通道。

2、有字节闸来实现对非对齐数据的传输。

3、只需发布起始地址就能做批量数据传输

4、数据的读写通道是分离的,可以用来实现低成本的DMA(直接存储访问,Direct Memory Access)。除了地址和数据通道是分离的之外,读写数据的通道还是分开的,由此可以看出AXI总线的高速性。

5、可以指定多个需要处理的地址。

6、通信会话可以乱序完成,主要是指的数据的乱序,乱序发送需要有主机的ID进行支撑。

7、为了实现时序收敛,可以方便的加入寄存器,即在用户logic和user interface处加入想要观察和处理的用户逻辑与端口。


(二)、AXI总线类型


自从2003年AXI1.0版本发布以后,目前的AXI版本是4.0,AXI接口类型有三种,即AXI4类型、AXI4-Lite类型,AXI4-Stream类型。


AXI4类型:最高性能的接口,适合存储器映射的通信,支持每个地址阶段256个数据传输周期的批量传输,存在于PS-PL之间。


AXI4_Lite类型:AXI4接口类型中轻量级版本,用于存储器映射的单次数据通信会话,简化了的接口占用较少的逻辑部分面积,不支持批量数据,只支持每次传输单个数据,存在于PS-PL之间。


AXI4-Stream类型:没有地址阶段,不是存储地址映射,仅仅存在与PL侧,可以实现无限制的数据批量大小,为流式数据传输定义单个专用通道,连接只能是从主机到从机。为了实现双向传输,两个外围设备都必须是主机/从机兼容类型。


(三)、AXI架构

AXI协议规定一个AXI主机可以用写数据通道通过AXI总线互联将数据传送给一个AXI从机(或者通过读取数据通道从从机传送到主机),写数据传输会话会有一个额外的响应通道,但是读取时并没有,这时考虑到数据的流向。在进行数据读取时,数据流向:Slave to Master,从机可以直接通过读数据通道向主机返回信息。在进行数据写入时,数据流向:Master to Slave,数据流向是单向的,需要有一个专门的响应通道。

无论是

读还是写,地址和控制数据都是在数据的发送/接收之前:


特别注意AXI互联(AXI Interconnect):


(1)、主机AXI从处理器系统和处理器时钟各自流向从机输出S00_AXI和S00_AXLK。

(2)、AXI互联的输出都是主机通道,每个通道驱动对应的设备。

一、DMA简介

DMA是一种内存访问技术,允许某些计算机内部的硬件子系统可以独立的直接读写内存,而不需要CPU介入处理,从而不需要CPU的大量中断负载,否则,CPU需要从来源把每一片段的数据复制到寄存器,然后在把他们再次写回到新的地方,在这个时间里,CPU就无法执行其他的任务。

DMA是一种快速数据传送方式,通常用来传送数据量较多的数据块。使用DMA时,CPU向DMA控制器发送一个存储器传输请求,这样当DMA控制器在传输的时候,CPU执行其他的操作,传输完成时DMA以中断的方式通知CPU。

DMA的传输过程为:

1、为了配置用DMA传输数据到存储器,处理器(Cortex-A9)发出一条指令。

2、DMA控制器把数据从外设传输到存储器或者从存储器传输到存储器,从而较少CPU处理的事务量。

3、输出传输完成后,向CPU发出一个中断通知DMA传输可以关闭。


为了发起传输事务,DMA控制器必须得到以下信息:

(1)、源地址——数据被读出的地址

(2)、目的地址——数据被写入的地址

(3)、传输长度——应传输的字节数

DMA控制器架构原理

AXIDMA:官方解释是为内存与AXI4-Stream外设之间提供高带宽的直接存储访问,其可选的scatter/gather功能可以将CPU从数据搬移任务中解放出来,在ZYNQ中,AXIDMA就是FPGA访问DDR3的桥梁,不过该过程受ARM的监控和管理。使用其他的IP(也是AXI4-Stream转AXI4-MM)可以不需要ARM管理。AXIDMA IP有6个接口,S_AXI_LITE是ARM配置DMA寄存器的接口,M_AXI_SG是从存储器加载buffer descriptor的接口,剩下4个接口构成两对,S2MM和MM2S表示数据的方向,AXI存储器一侧的接口,AXIS是FPGA一侧的接口。AXIDMA IP和ARM自带的DMA是很像的,只不过不具备从存储器到存储器的功能,当然也可以将S2MM和MM2S接口与AXIS接口直接相连。

AXIDMA工作模式可以分为两种,Direct Register Mode和Scatter/Gather Mode。

Direct Register Mode具备DMA的基本功能,除了控制寄存器和状态寄存器之外,给出目的地址和传输长度之后就可以开启一次传输了。但是Direct Register Mode模式配置完一次寄存器之后只能完成存储器连续地址空间的读写,如果有需求往不同空间搬运数据的话,那就需要重新配置寄存器开启一次新的传输。

Scatter/Gather Mode配置灵活,其工作模式复杂很多。Scatter/Gather Mode把关于传输的基本参数(起始地址,传输长度,包信息等)存储在存储器中,一套参数称之为Buffer Descriptor(BD),在工作过程中通过上面提到的SG接口来加载BD且更新BD中的状态。Scatter/Gather Mode下的寄存器没有Address、Length相关寄存器了,取而代之的是CURDESC、TAILDESC。非多通道模式下的BD,主要有四部分内容:NXTDESC、BUFFER_ADDRESS、CONTROL、STATUS。

NXTDESC指定下一个BD的地址,由此可以构成一个BD链条,AXIDMA可以顺着该链条依次fetch BD,BUFFER_ADDRESS指定传输的源地址或目的地址,CONTROL主要是length和包信息,STATUS反映该BD完成后的状态。AXIDMA启动后,首先从CURDESC指定的位置加载BD,完成当前BD的传输任务后根据BD链条找到下一个BD,依次完成BD指定的传输,知道遇到TALDESC指定的BD才停止。

Multichannel模式:在Scatter/Gather Mode下S2MM和MM2S都支持多个通道,Direct Register Mode不支持多通道,多通道相比非多通道,BD中增加了TID和TDEST,用来区分不同的通道。多通道支持2D-Transfer,从buffer address开始,读写HSIZE后跳过剩余的Stride – HSIZE个地址单元,下一次从buffer address + Stride位置开始,此过程迭代VSIZE此后结束该BD指定的传输。在Multichannel模式下S2MM有16个通道,每个通道都有独立的CURDESC和TAILDESC寄存器,而CR和SR则是共用的。而MM2S的多个通道共用一个CURDESC和TAILDESC寄存器,MM2S端只能等当前包传输完成才能开始下一次的传输,可能这与CPU不太容易同时操纵多个通道的数据包发送有关系。所以在实际使用时只能先执行一个通道的发送任务再执行另一个通道的发送任务。

Cyclic DMA:循环模式是在Scatter/Gather Mode模式下的一种独特工作方式,在Multichannel Mode下不可用。正常情况下的Scatter/Gather Mode模式在遇到Tail BD就应该结束当前的传输,但是如果使能了Cyclic模式的话,在遇到Tail BD时会忽略completed位,并且回到First BD,这一过程会一直持续直到遇到错误或者人为终止。Cyclic模式只需要在开启传输前设置好BD链条,工作之后就再不需要管了。

Data Cache:在zynq内部AMR CPU和DDR3之间存在两级缓存区,分别是L1 I/D Cache和L2 Cache,它们都是32-byte line size。Data Cache的使用带来了一个问题,DMA和CPU都与DDR3有数据往来,可CPU的Cache是不知道DMA对DDR3的数据读写过程的,也就是说CPU得到的数据很可能是“假的”,这就是Cache一致性问题。解决该问题的办法是在程序中使用flush函数(invalid函数)及时将Cache的数据写入到DDR3(从DDR3读取数据到Cache),也就是说要避免该问题就需要注意编码时加上flush函数。