dsp_builder-如何使用-有什么中文资料面包板社区

相关博文

感叹一下！

热度 18

用户436773

2013-8-6 10:11

1022 次阅读|

0 个评论

没个人带，自己单独做一个题目，是挻恼火的。而且自己基础又不好，有时候都有点后悔没有跟着做无线传感网。做什么气体传感器阵列嘛。看来是有点高看自己了，要自己单独去做一个方向。不过，都走到这一步了，也只能走下去了。感叹完了，下面还是总结一下这两天的工作吧。这几天，一直都在看论文，关于怎么用FPGA实现神经网络算法。当然我的重点是，怎样用DSP Builder去实现。这其中，又分两种，在线学习和离线学习。在线学习的，能够实时进行学习，即FPGA实现的神经系统里，就能完成学习，训练，也充分利用了FPGA的并行运算能力。特别适合于需要实时学习且实时性要求高的系统。还有一种就是离线学习。即先在MATLAB里把神经网络训练好。然后把权值、阈值存储在系统里。第二种系统较为简单，适用于比较固定的不需要经更改权值、阈值的应用。我做的气体检测系统，第二种方式就能满足要求，且为了节省时间和芯片资源，计划用第二种方式去实现。看过的论文里，基本上都是将权值、阈值存储在ROM或RAM里。但对ROM和RAM的提及很少。自己也没做相关方面的练习，所以我自己打算搭建一个不用ROM和RAM的方法。但感觉时序操作方面有点问题。所以下一步是找一些气体检测的原始数据，然后在MATLAB里有神经网络工具箱进行训练，得到网络参数。再根据这些参数来设计网络的结点数及其它参数。
基于DSP Builder的DDS设计

热度 20

用户436773

2013-8-1 20:08

1173 次阅读|

2 个评论

为了更熟练地掌握DSP Builder的设计技能。决定找几个相关的例子来做一下。今天，其实是昨天就把模型搭建好了，只是一直不出波形。先来看一下，我参照书上搭建的模型。 DDS的原理，我就不在这儿费话了。根据书上的提示，这个模型几分钟就搭建好了。当然这个只是DDS的一部分，由于开发板上没有D/A转换芯片，此实验只能实现NCO部分，在simulink里仿真。可是就这么一个简单的实验，我照着书做都做了两天才做出来。对软件不熟悉是很大的一原因吧。首先是仿真后，没有在虚拟示波器上见波形。偶然间把仿真时间调整为100后（原来是5），见到波形了。原来是仿真时间不匹配。害得我调了这么久。波形成功弄出来了。可是这个波形离我想要的正弦波相差甚远。我又看了下，原理图，可能影响波形的参数主要有三个。（相位字设为0）一是频率字，频率字值越大，频率越高。相同的时间刻度上，可以显示的波形个数越多。为了清楚的看到波形，需要协同调整频率字和仿真时间。如果频率字一定，只能调整仿真时间。第二个参数是调幅字。调幅字按说只会影响波形的幅值，不会影响到波形的形状。但LUT输出与调幅字做了乘法运算。如果乘积超过乘法器的位数，则会溢出。输出波形就会变形。结果如下图。当产生溢出时，乘法器输出傎产生跳变，波形也就会产生跳变。另外一个参数就是LUT的MATLAB ARRAY。1023*sin( )+1024，其中，10是LUT的深度。1023是其幅值，加上1024是为了保证输出为非负。其幅值过大，与前面的幅度字相乘后，就会产生溢出。LUT深度为6时，其波形如下：由此看来，LUT的深度会影响输出波形的精度。另一个影响输出波形精度的因素是D/A的精度，下面两图分别是D/A精度为16位和10位时的输出波形。它们的差别很明显。参考书籍:《EDA技术与VHDL》潘松，清华大学出版社
DSP_Builder中时钟信号的处理方式

热度 19

用户434979

2012-12-21 16:20

3172 次阅读|

0 个评论

刚开始接触 DSP_Builder 工具时可能会对 clock 模块有些疑惑。 Clock 模块如下图所示。，我来说一下我的疑惑，看大家是否有同感，把 clock 放在你要设计算法的 model 中，此外还有一个和 clock 差不多的东西，那就是，字面意思倒是好理解，“引出时钟”，这个翻译有些不专业，但意思差不多，那就是由原时钟引出的时钟，那这两个东西连管教都没有，到底怎么用呢？首先要说明一点，这两个时钟对于我们综合后的代码来说只是提供了两个接口，而真正引出时钟的含义只是在我们仿真时才是有意义的。怎么理解呢？ simulink 在仿真我们代码时需要一个统一的时间标准，这个时间标准就是我们的 Clock 模块，一个程序中标准只有一个，如果我们想设计多时钟程序怎么办，那就只能在原时钟基础上生成；而当我们生成可综合的代码时，这个引出时钟和原时钟就没有任何关系了，我们必须在外部通过逻辑代码或者 PLL 提供时钟信号，要保证和仿真时的频率关系和相位关系一致。那这两个时钟连输出端口都没有，我们怎样使用呢？下面笔者给大家讲述一下 Altera 为什么要这么设计。 FPGA 设计时主张同步时序设计方法，先看一下同步时序的定义。看到这个定义大家应该明白了吧，用一个 clock 模块是对应同一时钟，而是用 clock_derived 模块是对应多个时钟的情况。那还没有说端口的问题呢？其实这种设计是在帮我们省事，为什么那么说呢？当我们仔细观察各模块的参数就知道了，只有数据源模块才让我们填写参考时钟（如输入口（ input ）、计数器（ counter ）等），中间模块根本没有给我们设计参考时钟的机会，这种设计就使我们必须使用同步时序设计方法，且一条数据通道上仅使用一个时钟。为了印证上述结论，笔者做了一个实验。如上图所示， sysclk 周期为 20ns ， clk 是 sysclk 的二分频， counter 的参考时钟是 sysclk ， counter1 的参考时钟 clk 。下面是仿真结果。由这两个图可知，笔者的结论是正确的， delay 模块的延时是延时的各部分时钟周期。下面说说笔者为什么要进行这个实验，笔者之前设计了一个小波分解算法。当数据流按照奇偶性分离后，奇数据流和偶数据流的频率都为原频率的 1/2 ，并且需要执行一步计算，那就是当前奇数流数据和前一个奇数流数据求和。在没得到上述结论之前，笔者采用的办法是，把前一个奇数流数据延时 2 个时钟在和当前数据求和，这中方法可以得到正确的结果，但多用了一组逻辑单元，造成逻辑单元的浪费相当严重。
Delay模块和Memory Delay模块深入剖析之三

热度 19

用户434979

2012-12-21 15:01

2781 次阅读|

0 个评论

一个好的算法并不只是讲求功能的实现，功能的实现只是前提，而消耗更少的资源（更省钱）提供相同的功能才是王道。本文就给大家说一下笔者整理的一些省钱的方法。 1、器件的选型。对于 Altera 公司的 FPGA ， Cyclone II 系列 FPGA 内部 RAM 资源只有 M4K ， Cyclone III 是 M9K ，更高端的芯片可能有 M512K ，或者几种规格的 RAM 块都有。那是不是越大越好呢？答案是否定的，相反， RAM 类型越高端，其资源使用率就会越低，试想，你使用 M512K 的 RAM 块，而你的程序根本用不大那么大资源，剩余的空间将全部浪费。所以在器件选型时，要综合考虑多方面因素。 2、下面我们来看一个具体的例子，通过这个例子我们就能看出来我前两篇博文讲诉的内容有什么作用。先来看两个算法：（ 1 ）（ 2 ）这两个算法在功能上实现的功能相同，都是把一个 8 位数据延时 516 个时钟单位，那我们就来对比一下资源消耗情况。对于算法（ 1 ）， 516*8=4128 bits 4096 bits （ 4K bits ），因此需要消耗两个 M4Ks ；再来看算法（ 2 ），前面两个时钟延时由 delay 模块完成，消耗 16 个 LE ，再延时 514 个时钟，正好消耗 1 个 M4K 。下面两幅图是上述算法综合后资源消耗情况。那有人会问，我能不能设计成下图的算法，然后通过优化选项让综合器自己决定，通过笔者试验，这种功能 Altera 还没做到。对比算法（ 1 ）和算法（ 2 ），我想我们之前的努力已经有所回报，我们少用了一个 M4K ，多用了几个 LE 就实现了所需的功能，何乐而不为呢！
Delay模块和MemoryDelay模块深入剖析之一

热度 27

用户434979

2012-12-21 10:05

4771 次阅读|

0 个评论

用过 DSP_Builder 工具的朋友一定用过 Delay 模块，这个可是算法设计中必须用到的东西，它能让你的数据延时几个时钟再出现，那么在这个模块同一个 Library 中你是否注意到还有一个 Memory Delay 模块。咋一看，这两个模块貌似是一样的，因为都有 Delay ，不过再一想，既然分开存放，那肯定又有所不同。下面，跟随着笔者带你看看究竟这里面藏着什么秘密。首先，我们来看一个实验，这个实验如下图所示。我们对这个算法进行编译，目的是查看这两个不同的 Delay 模块综合成了什么样的电路以及消耗的资源情况怎样。对上图资源使用情况，我们只关心两个地方就足够了，一个是 Logic Cells ，一个是 M4Ks 。 Logic Cells 是 FPGA 内部的逻辑单元，我们生成电路主要靠的就是它了； M4Ks 是 Altera 低端 FPGA 配备的内部 RAM 资源， 4K 的意思就是它的容量是 4K bits （注意这儿单位是位）。由这里可以看出 Delay1 模块消耗了 8 个 Logic Cells ， Memory Delay 也消耗了 8 个 Logic Cells 。忙活了半天，原来这两个模块消耗的资源是一样的，我们再来看一下综合的电路吧。看了上图发现，这两个模块综合成的电路都是一样的。笔者坚信，这两个模块肯定有所不同，那能不能通过综合优化选项改变综合后的电路呢，笔者更改了 Analysis Synthesis Settings 下的 Optimization Technique 。不论采用 Speed 、 Balanced 还是 Area ，效果都是一样的。笔者又试验了两个时钟单位的延时，两个模块综合出来还是完全一样。功夫不负有心人，当我把延时值增加到 3 时，就出现了不同效果了。下图是延时 3 个时钟时的资源消耗情况。看到这个图，我们终于可以高兴一下了，因为我们找出了它们的不同， Delay1 消耗了 24 个 Logic Cells ，没有用到 M4Ks ；而 Memory Delay 消耗了 5 个 Logic Cells ，同时消耗了 1 个 M4Ks 。这里就好理解为什么叫 Memory Delay 了吧，因为它需要占用 FPGA 的 RAM 资源；而 Delay 模块不占用 RAM 资源，而是消耗 Logic Cells 资源，那究竟是不是这样呢，让我接下来一探究竟吧。既然资源消耗不同，那综合出的电路也不同了，这里感兴趣的朋友可以自己试验一下。笔者还没有放弃，继续试验，试图彻底了解它们俩兄弟。笔者又进行了 4 时钟延时的试验，结果这次更复杂了，先看看 4 时钟延时的资源消耗情况吧。对比上面两幅图，笔者惊讶的发现，我进行 4 个 Memory Delay 的延时，结果比进行 3 个 Memory Delay 的延时，消耗的资源还要少，这里确实有些复杂。当我们看 RAM Summary 时发现， 3 个延时时生成的 RAM 是双时钟的简单双口 RAM ，而 4 个延时时声称的 RAM 是单时钟的简单双口 RAM ，这就是答案所在，究竟 Altera 为什么要那么做，笔者也不清楚。当我把延时值进一步加到 5 时，更为奇特的事情发生了，且听笔者慢慢道来。下图是我在用 Speed 模式优化综合器时生成电路的资源消耗情况。 Delay1 模块消耗了 40 个 Logic Cells ，这里好理解， 8 位输入输出，每个延时消耗 8 个 Logic Cells ，一共 40 个。但是， Memory Bits 为什么只有 24 bits ，按道理应该是 40 bits 才对啊。当我们观察生成的电路结构时会发现， M4K 每个块输入输出口都配备有一个 D 触发器，这个触发器可以选择使用不使用，而每个 D 触发器都相当于一个延时，这样就好理解为什么是 24 bits 了吧。而当我们用 Balance 或者 Area 选项去优化综合器时，又出现了不同的效果，且看下图。看到了吧， Delay1 消耗了 8 个 Logic Cells 和 16 bits M4K ，而 Memory Delay 消耗了 24 bits M4K ，貌似越来越复杂了。其实当我们看了综合成的电路后就感觉不到复杂了， Delay 在利用 Memory 延时之前先进行了 1 个延时，即 8 个 Logic Cells 用作了 1 个时钟的延时，究竟为什么这样，也只有 Altera 的工程师能说清楚了。接下来，相信大家都会像笔者一样，有接着往下做实验的冲动。有兴趣大家可以多试验几种情况，在这里给出大家一个结论，当所设定的延时值 * 数据位宽小于逻辑单元数量时，综合出来的结论都和 5 个延时值时相同；而当延时值 * 数据位宽大于逻辑单元数量时，用 Speed 优化选项编译会报错，而用 Balance 或 Area 优化选项编译时正常。通过上面的实验，我对我们已经对 Delay 和 Memory Delay 有个清楚的认识了，但我们找出这些区别并是不完全出于兴趣，下一篇博文将会进一步说明我们怎么利用这些不同设计自己的算法，以节省 FPGA 资源。

更多...

标签: dsp_builder