原创 【博客大赛】H.264高性能可重构2-D变换结构-2

2013-3-16 15:38 1065 8 8 分类: 消费电子

接上文

其中QijXijCijDij分别是4*4数组QXCD中元素。CijDij可以表示如下:

20130316153651698001.gif

20130316153721805001.gif  

其中,

Wij是输入矩阵W中的元素。因而,4*4反向变换的SFG可以表示为图2

20130316153620113001.gif

A. 给出的可重构2-D 结构

SFG可以合并在一个可重构2-D结构中,此结构可以支持所有的三个变换。所有的结构如图3表示。

 

20130316153559436001.gif  

它包含32个处理器单元(PE)和4个可重构内部连接器。有3Pes结构,功能如图4表示。

 


20130316153215910001.jpg

 

PE1功能是不变的,而PE2PE3的功能是可重构的。PE1功能如图4A中所示。对于4*4前向DCT而言,PE2PE3可以配置成按图4**能C和功能A工作。对于反向DCTPE2PE3可以配置成按图4**能A和功能D工作。对于Hadamard变换,PE2PE3可以配置成按图4功能B和功能A工作。内部连接器P_INP_C1P_TranP_C2可以独立的配置为如下功能:M1X(或M1W),M2A(或M3C),M1PT(或M3QT)和M2B(或M3D)。

所有可重构内部接口可以用数据选择器实现。移位器可以用硬线实现,不会引入延时和面积。4*4数据块可以用并行方式载入。4*4变换的结果可以在一个周期内输出。

四:实现和结果对比

所给出的多变换可重构结构采用Verilog_HDL描述。仿真采用CadenceNC_VerilogSynopsys DC,所用工艺为TSMC 0.18um CMOS标准单元库。设计处理速度为16 pixels/cycle。即一个周期内可以计算出4*4变换。电路可以在200MHz工作,且处理速度为3.2G pixels每秒。在频率为100Mhz,可重构结构可以实现以60fps速度实时处理4096*2048

1给出了典型设计和本设计的主要特点,包含CMOS技术,硬件消耗(以门级为计量单位),最大工作频率,数据处理速率(DPRpixels/cycle),吞吐量(TPpixels/second)和每单位面积的数据吞吐率(DTUA)。DTUA通常是评估硬件效率的,数据吞吐率比上硬件消耗。DTUA越高,结构效率越高。根据表1DTUA的情况,本设计的效率较其它设计更好。

20130316152905132001.gif

五:总结

本文提出了一种针对H.2644*4变换的高性能可重构2-DCT变换结构。给出的直接2-D变换SFG没有使用转置存储器。所介绍的结构可以提高数据的处理速率为16pixels/cycle。使用TSMC 0.18um标准单元库,多变换的电路的最优频率为200mhz实现3.2Gpixels/s,面积消耗未11038gates。就DTUA而言,相比已经存在的结构,本设计具有更好的性能。

PARTNER CONTENT

文章评论0条评论)

登录后参与讨论
EE直播间
更多
我要评论
0
8
关闭 站长推荐上一条 /3 下一条