热度 13
2013-5-2 15:05
2696 次阅读|
0 个评论
四:读检测放大器冗余 当然,在三-B中已经说明V_VDD的减小会影响被访问行中所有单元的SNM,即使这些单元没有新的数据写入。然而,在本设计中,采用调节电源电压去维持限制,因而过多的减小V_VDD的值会造成数据的丢失。结果是,采用了如图11(a)所示的交错布局图,在同一时间上,每一行中的所有单元被选中,共用一个V_VDD电源。而且注意到,行译码器和其它外围也可以共用,仅仅是电源驱动和采用低一行的选择信号作为门信号的字线驱动,需要多路。一般而言,电源驱动和字线驱动的尺寸变化调节了它们的负载,最终节省了面积的开销。 图11(b)采用了分离布局图,相邻列不能共享一个读检测放大器。结果是,每一行都有一个自己的读检测放大器,致使每一个读检测放大器的面积收到更大约束,并且在整个SRAM中它们的数量也会大大增加。这一结果突出了在深度调节技术中会遇到的问题。另外,由于静态偏移和物理尺寸之间的折中处理使读检测放大器的尺寸没有得到相应的调节【12】。在本设计中,依靠使用“全摆动”检测方法实现部分折中处理,这一部分中RDBL能够进行彻底放电。考虑到照常例依靠小信号检测获得速度的明显提高,本设计显得有些激进。然而,如三—A描述的,未被访问的读缓冲由于门和节点泄漏的原因,会造成RDBL上出现小幅度的压降。相反的,随着RDBL电压下降,未被访问的读缓冲开始迫使相反的亚阈值电流从它们foot节点流出,VDD到RDBL节点。最后电压近似下降到120mv。不幸的是,如二-B中所述,I_READ参数会造成读访问时间任意性的增加,甚至能够达到状态下降的稳定时间。结果是,在本设计中采用了静态原则,保证即使是在读和下降状态已经稳定的前提下,RDBL上的数据依然能正确检测到。这要求RDBL上读检测放大器的偏移受限于120mv表示逻辑“1”。为了解决这一挑战,采用了读检测放大器冗余的方法,这一部分将在下面阐述。 A.读检测放大器偏置源 读检测放大器的偏移来自它们结构中全局参数和局部参数。全局参数和结构中的die-to-die参数有关,局部参数和彼此靠近的die结构间的不匹配有关。全局参数对芯片上所有管子的参数,且对NMOS和PMOS的影响也不相同。例如,所有反相器的开关阈值电压的偏移。而局部参数能不同的影响每个反相器的开关阈值电压。 重要的是,采用图12(a)所示的差分检测放大器可以消除全局参数的影响。这个机构的对称性能够确保在过程参数中免受由系统不同造成影响。当然,本设计中的8T bit单元采用了单端读缓冲,和差分检测器不能兼容。因而,采用了伪差分检测,RDBL驱动了图12之中的一个输入,片外结构驱动其它高阻抗输入。因此,RDBL上60mv差分信号电压必须被解决。 余下的偏移源就是局部参数所致,局部参数可以模型化成随机影响,其标准方差和结构面积的平方根成反比关系【13】【14】,因而要考虑面积问题。图13给出了Monte Carlo仿真下的面积偏移的折中处理。在本设计中,共有1024个读检测放大器,适当的增加尺寸必须考虑由于偏移带来的错误率,且必须在许可范围内。 B.读检测放大器冗余的概念 如图14所示,检测放大器冗余要求每一列的RDBL连接到N个不同的读检测放大器。每个读检测放大器都有如图12所示的差分结构,因而它们的偏移来自局部参数,具有不确定性和非相关性。现在,它们中的一个被选中,而且偏移量受限于RDBL的高和低逻辑电平。因而,如果读检测放大器能够被正确选中的话,N个中会有1个的偏移量变低。这一相似原理也运用到flash ADCs中,实现温度编码比较的最小偏移【15】。 更重要的是,由于所有读检测放大器的面积受约束,因而冗余的数量就意味着每一个读检测放大器都要尽可能小。例如,图15(a)所示,N=2,每个读检测放大器面积都要减半,N=4,每个读检测放大器面积都要为原来的1/4。然而,减小每个读检测放大器面积增加它们的偏移分布的标准偏差,相应的会增大错误率。如图15(b)所示的利用Monte Carlo仿真获得的偏移分布,读检测放大器的差错率 被定义为RDBL中在偏移幅度超出输入摆动的面积。、 因而,很明显,由于要求尺寸减小,当我们增加读检测放大器冗余N的时候,差错率自然会增加。采用有效的小偏移选中一个结构的能力是指对于所有的检测网所有检测放大器都不产生错误的联合概率。总共的差错概率用如下公式表示: 对于所有检测网的结果差错率绘制在图16中,采用的是单个,全尺寸的读检测放大器。正如图所示,随着冗余N的增加,差错率会减小,输入摆幅正如本设计所预料的(50mv),结果是性能提高超过一个数量级。 C.读检测放大器冗余的实现 事实上本设计中冗余的设计采用的是结合2个读检测放大器(即N=2),在四-B中描述的是一般情况,即N=8的时候,但是在这种情况下,面积将会很大,不能满足最小尺寸的要求,选择逻辑结构开销过大,因而不予考虑。当N=2,选择逻辑实际上是一个触发器和一些简单的逻辑门。 选择单元的剩余部分如图17所示,一个虚拟的bit单元采用“0”和“1”这两种状态固定。这一单元一旦供电,就能被访问,强迫RDBL首先被拉低,然后才维持高电平。而且RDBL的“0”和“1”独立于被访问单元的参数;如图示,逻辑“1”是由总的门接点和反相的来自读缓冲的亚阈值漏电流构成,逻辑“0”持续稳定在地附近。结果是,在静态原则下,I_READ的广泛分布并没有限制虚拟单元模仿每个数据值的完整性。图17给出的简单状态机决定了读检测放大器能够正确的处理这些数据,而且仅是相应的结构被使能。如果两个读检测放大器都工作,第一个是被选中,如果都不工作,SRAM中所有结构都失效。 图18给出了N=2时检测网络的差错率曲线,正如图所示在输入摆幅变化范围内(即近似60mv),比起单个全尺寸读检测放大器而言,此设计在差错率性能上提高了5倍。 五:SRAM原型 结合8T bit单元结构,外围辅助电路,度检测放大器冗余,给出了采用65nm工艺SRAM的原型。测试芯片包含8个块,每个块包含256列128行,共计256kb的容量。原型的裸片照如图19所示,已经完成的SRAM能够正确在350mv下进行正确的全读和写功能,能够在300mv下进行数据保存,这说明bit单元和外围辅助电路可以使电路在接近保存数据的极限电压下达到尽可能的小。下面的部分阐述SRAM原型的特点以及漏电流损耗,动态性能,动态功耗。 A.漏电流损耗 如图20所示,SRAM对于电源电压在0℃,27℃和75℃下的漏电流损耗。在最小电压350mv的时候,总共的漏电流损耗是2.2uw,相比与1v的电源电压,其漏电流损耗节省了近20倍。图也显示了SRAM在能够正确保存数据的300mv电压下,其总漏电流损耗为1.65uw。 相比与传统的6T设计,10T亚阈值设计【3】,在单元布局方面,本设计较前者多了近30%,较后者节省了近30%。在漏电流功耗方面比起传统的6T单元,且工作最小电压为700mv的时候,其节省了近5倍。 B.动态性能 图21给出了SRAM原型对于在电源电压下动态读和写上的性能,正如所预料的,亚阈值电压(350mv)下速度会明显降低,本设计SRAM速度约25kHz。 C.动态功耗 图22给出了在工作频率下总共的功耗(动态功耗加上漏电流损耗),用实线表示;漏电流损耗,用虚线表示。由图可知,在频率跨度很大的范围内漏电流损耗在总功耗中都占绝大比例,因而漏电流损耗最小化是正确的。 六:总结 电压调节对于最小化SRAM的功耗是一种有效的方法。另外,由于SRAM在当今IC设计中在面积和功耗方面占据很大比例,因而SRAM好坏对于最终功耗节省和面积节约有很大影响。然而,传统基于6T单元的SRAM,很难在低于700mv下正常工作,一方面是因为信号水平的降低,另一方面是因为参数的增加。在亚阈值电压下,阈值电压对于驱动电流有指数形式的影响,结果会导致单元不稳定,读电流的严重下降。为了解决这一束缚,本设计采用了8T单元结构65nm工艺实现256kb的SRAM,在亚阈值电压区域350mv电压下,实现了正确的全读和写功能。在此电压下,工作频率为25kHz的时候,总共的漏电流损耗是2.2uw。亚阈值区域,速度的降低是在预料之内的,在低吞吐量能量要求的应用中可以采用本设计。在350mv下,漏电流损耗占总功耗的85%,因而漏电流损耗必须要认真对待。另外,对于先进的工艺而言,读检测放大器的尺寸与静态偏移的折中处理是首要的限制因素。在本设计中,要使在亚阈值电压下完成写功能,仅靠外围辅助电路即相邻列采用读检测放大器多路技术是不切实际的。据此,读检测放大器调节收到限制,需要一种不同的方式实现offset-area的折中。为此引入读检测放大器冗余,对于给定面积约束,由于偏移造成的检测网的错误率可以减少超过一个数量级的量。本设计中,采用已实现的方案,包括一个简单的启动控制环,可以有效的5倍的性能。