tag 标签: sram,亚阈值

相关博文
  • 热度 13
    2013-5-2 15:05
    2696 次阅读|
    0 个评论
    四:读检测放大器冗余 当然,在三-B中已经说明V_VDD的减小会影响被访问行中所有单元的SNM,即使这些单元没有新的数据写入。然而,在本设计中,采用调节电源电压去维持限制,因而过多的减小V_VDD的值会造成数据的丢失。结果是,采用了如图11(a)所示的交错布局图,在同一时间上,每一行中的所有单元被选中,共用一个V_VDD电源。而且注意到,行译码器和其它外围也可以共用,仅仅是电源驱动和采用低一行的选择信号作为门信号的字线驱动,需要多路。一般而言,电源驱动和字线驱动的尺寸变化调节了它们的负载,最终节省了面积的开销。 图11(b)采用了分离布局图,相邻列不能共享一个读检测放大器。结果是,每一行都有一个自己的读检测放大器,致使每一个读检测放大器的面积收到更大约束,并且在整个SRAM中它们的数量也会大大增加。这一结果突出了在深度调节技术中会遇到的问题。另外,由于静态偏移和物理尺寸之间的折中处理使读检测放大器的尺寸没有得到相应的调节【12】。在本设计中,依靠使用“全摆动”检测方法实现部分折中处理,这一部分中RDBL能够进行彻底放电。考虑到照常例依靠小信号检测获得速度的明显提高,本设计显得有些激进。然而,如三—A描述的,未被访问的读缓冲由于门和节点泄漏的原因,会造成RDBL上出现小幅度的压降。相反的,随着RDBL电压下降,未被访问的读缓冲开始迫使相反的亚阈值电流从它们foot节点流出,VDD到RDBL节点。最后电压近似下降到120mv。不幸的是,如二-B中所述,I_READ参数会造成读访问时间任意性的增加,甚至能够达到状态下降的稳定时间。结果是,在本设计中采用了静态原则,保证即使是在读和下降状态已经稳定的前提下,RDBL上的数据依然能正确检测到。这要求RDBL上读检测放大器的偏移受限于120mv表示逻辑“1”。为了解决这一挑战,采用了读检测放大器冗余的方法,这一部分将在下面阐述。 A.读检测放大器偏置源 读检测放大器的偏移来自它们结构中全局参数和局部参数。全局参数和结构中的die-to-die参数有关,局部参数和彼此靠近的die结构间的不匹配有关。全局参数对芯片上所有管子的参数,且对NMOS和PMOS的影响也不相同。例如,所有反相器的开关阈值电压的偏移。而局部参数能不同的影响每个反相器的开关阈值电压。 重要的是,采用图12(a)所示的差分检测放大器可以消除全局参数的影响。这个机构的对称性能够确保在过程参数中免受由系统不同造成影响。当然,本设计中的8T bit单元采用了单端读缓冲,和差分检测器不能兼容。因而,采用了伪差分检测,RDBL驱动了图12之中的一个输入,片外结构驱动其它高阻抗输入。因此,RDBL上60mv差分信号电压必须被解决。 余下的偏移源就是局部参数所致,局部参数可以模型化成随机影响,其标准方差和结构面积的平方根成反比关系【13】【14】,因而要考虑面积问题。图13给出了Monte Carlo仿真下的面积偏移的折中处理。在本设计中,共有1024个读检测放大器,适当的增加尺寸必须考虑由于偏移带来的错误率,且必须在许可范围内。 B.读检测放大器冗余的概念 如图14所示,检测放大器冗余要求每一列的RDBL连接到N个不同的读检测放大器。每个读检测放大器都有如图12所示的差分结构,因而它们的偏移来自局部参数,具有不确定性和非相关性。现在,它们中的一个被选中,而且偏移量受限于RDBL的高和低逻辑电平。因而,如果读检测放大器能够被正确选中的话,N个中会有1个的偏移量变低。这一相似原理也运用到flash ADCs中,实现温度编码比较的最小偏移【15】。 更重要的是,由于所有读检测放大器的面积受约束,因而冗余的数量就意味着每一个读检测放大器都要尽可能小。例如,图15(a)所示,N=2,每个读检测放大器面积都要减半,N=4,每个读检测放大器面积都要为原来的1/4。然而,减小每个读检测放大器面积增加它们的偏移分布的标准偏差,相应的会增大错误率。如图15(b)所示的利用Monte Carlo仿真获得的偏移分布,读检测放大器的差错率 被定义为RDBL中在偏移幅度超出输入摆动的面积。、 因而,很明显,由于要求尺寸减小,当我们增加读检测放大器冗余N的时候,差错率自然会增加。采用有效的小偏移选中一个结构的能力是指对于所有的检测网所有检测放大器都不产生错误的联合概率。总共的差错概率用如下公式表示: 对于所有检测网的结果差错率绘制在图16中,采用的是单个,全尺寸的读检测放大器。正如图所示,随着冗余N的增加,差错率会减小,输入摆幅正如本设计所预料的(50mv),结果是性能提高超过一个数量级。 C.读检测放大器冗余的实现 事实上本设计中冗余的设计采用的是结合2个读检测放大器(即N=2),在四-B中描述的是一般情况,即N=8的时候,但是在这种情况下,面积将会很大,不能满足最小尺寸的要求,选择逻辑结构开销过大,因而不予考虑。当N=2,选择逻辑实际上是一个触发器和一些简单的逻辑门。 选择单元的剩余部分如图17所示,一个虚拟的bit单元采用“0”和“1”这两种状态固定。这一单元一旦供电,就能被访问,强迫RDBL首先被拉低,然后才维持高电平。而且RDBL的“0”和“1”独立于被访问单元的参数;如图示,逻辑“1”是由总的门接点和反相的来自读缓冲的亚阈值漏电流构成,逻辑“0”持续稳定在地附近。结果是,在静态原则下,I_READ的广泛分布并没有限制虚拟单元模仿每个数据值的完整性。图17给出的简单状态机决定了读检测放大器能够正确的处理这些数据,而且仅是相应的结构被使能。如果两个读检测放大器都工作,第一个是被选中,如果都不工作,SRAM中所有结构都失效。 图18给出了N=2时检测网络的差错率曲线,正如图所示在输入摆幅变化范围内(即近似60mv),比起单个全尺寸读检测放大器而言,此设计在差错率性能上提高了5倍。 五:SRAM原型 结合8T bit单元结构,外围辅助电路,度检测放大器冗余,给出了采用65nm工艺SRAM的原型。测试芯片包含8个块,每个块包含256列128行,共计256kb的容量。原型的裸片照如图19所示,已经完成的SRAM能够正确在350mv下进行正确的全读和写功能,能够在300mv下进行数据保存,这说明bit单元和外围辅助电路可以使电路在接近保存数据的极限电压下达到尽可能的小。下面的部分阐述SRAM原型的特点以及漏电流损耗,动态性能,动态功耗。 A.漏电流损耗 如图20所示,SRAM对于电源电压在0℃,27℃和75℃下的漏电流损耗。在最小电压350mv的时候,总共的漏电流损耗是2.2uw,相比与1v的电源电压,其漏电流损耗节省了近20倍。图也显示了SRAM在能够正确保存数据的300mv电压下,其总漏电流损耗为1.65uw。 相比与传统的6T设计,10T亚阈值设计【3】,在单元布局方面,本设计较前者多了近30%,较后者节省了近30%。在漏电流功耗方面比起传统的6T单元,且工作最小电压为700mv的时候,其节省了近5倍。 B.动态性能 图21给出了SRAM原型对于在电源电压下动态读和写上的性能,正如所预料的,亚阈值电压(350mv)下速度会明显降低,本设计SRAM速度约25kHz。 C.动态功耗 图22给出了在工作频率下总共的功耗(动态功耗加上漏电流损耗),用实线表示;漏电流损耗,用虚线表示。由图可知,在频率跨度很大的范围内漏电流损耗在总功耗中都占绝大比例,因而漏电流损耗最小化是正确的。 六:总结 电压调节对于最小化SRAM的功耗是一种有效的方法。另外,由于SRAM在当今IC设计中在面积和功耗方面占据很大比例,因而SRAM好坏对于最终功耗节省和面积节约有很大影响。然而,传统基于6T单元的SRAM,很难在低于700mv下正常工作,一方面是因为信号水平的降低,另一方面是因为参数的增加。在亚阈值电压下,阈值电压对于驱动电流有指数形式的影响,结果会导致单元不稳定,读电流的严重下降。为了解决这一束缚,本设计采用了8T单元结构65nm工艺实现256kb的SRAM,在亚阈值电压区域350mv电压下,实现了正确的全读和写功能。在此电压下,工作频率为25kHz的时候,总共的漏电流损耗是2.2uw。亚阈值区域,速度的降低是在预料之内的,在低吞吐量能量要求的应用中可以采用本设计。在350mv下,漏电流损耗占总功耗的85%,因而漏电流损耗必须要认真对待。另外,对于先进的工艺而言,读检测放大器的尺寸与静态偏移的折中处理是首要的限制因素。在本设计中,要使在亚阈值电压下完成写功能,仅靠外围辅助电路即相邻列采用读检测放大器多路技术是不切实际的。据此,读检测放大器调节收到限制,需要一种不同的方式实现offset-area的折中。为此引入读检测放大器冗余,对于给定面积约束,由于偏移造成的检测网的错误率可以减少超过一个数量级的量。本设计中,采用已实现的方案,包括一个简单的启动控制环,可以有效的5倍的性能。
  • 热度 14
    2013-5-2 15:01
    2042 次阅读|
    0 个评论
    翻译继续,重磅!!! 摘要: 在当今IC设计中,调节SRAM电源电压可以有效的减小在总功耗中占绝大部分比例的动态功耗和漏电流损耗。因此,一些对性能要求不高但对能量有约束的应用得益于SRAM能在最可能低的电压下提供读写功能。然而,传统的bit单元和结构要在低电压实现SRAM的功能必带来很高的密度。本文描述了一种采用65nm CMOS工艺实现的高密度SRAM,其中的bit单元采用8 T结构,它能够实现在350mv电压下进行正常的读写操作。利用读缓冲器保证读稳定性,在没有降低bit单元密度的情形下,利用bit单元电源电压和读缓冲器的foot电压确保亚阈值电压下的写和读功能。采用冗余解决了现在读检测放大器面临的面积偏移的难题,同时,与增加结构面积相比,在读错误率上性能提高了5倍。在最低电压下进行操作,256kb的SRAM共消耗2.2uw的漏电流功耗。 关键词: Cache存储器   CMOS存储器电路   漏电流  低功耗电子  冗余   SRAM芯片 一:简介 在数字电路中根据公式CVdd^2可知,进行电压的调节可以有效的节省动态功耗。当然,工作速度的降低意味着电路要花更长的时间完成一次需要的操作。结果是,由于闲置的亚阈值电压下的电流而照成的漏电流功耗将增加。这种相反的趋势使在实际的数字电路中,最小功耗时的电源电压出现在阈值电压以下【1】。需要说明的是,这种论断总假设电路能够在合适的速度进行下准确的操作,在操作完成以后能够准确的关断,同时能减小漏电流损耗。然而,事实上SRAM通常需要保存和缓冲数据一段时间,而这段时间都与访问数据周期无关,电路并不能适时进行关断。在这种情况下,最小化漏电流功耗显得尤为重要,而调节电源电压是最有效的方法,因为它可以依靠减小栅漏极感应势垒(DIBL)来减小漏电流。举个例子,对65nm工艺而言,由于DIBL效应使电源电压从1V降到0.3v时,漏电流减少了4倍,漏电流损耗节省了近10倍。在这种情形下,低电压待机模式很有效,但是受限于在操作模式下由于动态翻转和漏电流而引起的功耗减少。因此,本文给出了一种亚阈值SRAM,能够在350mv【2】下进行全读和全写操作,此电压下能实现最小能耗,更重要的是能够最小化阵列中的动态功耗和漏电流损耗。有实例已经实现超低电压下工作,但是它们都是依靠对单元增加外部结构实现,或者采用标准逻辑拓扑的方式实现。例如,在400mv【3】下工作的10T单元,在310mv【4】和180mv【5】下采用多路选择器读实现寄存器组操作。然而,这些设计利用外围辅助电路结构解决亚阈值电压设计的挑战,都会使单元的密度增加。最后,在一些先进的技术设计中,由于参数偏移的原因,读检测放大器的调节难度将更为突出,面对的压力也会更大。因此,本文提出一种增加结构尺寸的折中方法。 二:亚阈值SRAM面临的挑战 图1给出了MOSFET的I_d与V_GS之间的关系,在亚阈值下ID按指数形式增长,在强反型下变化得十分缓慢。在亚阈值附近有两个至关重要的影响需要提出,一是阈值电压参数,第二个是开关电流比的下降。 阈值电压的偏移是由于过程参数和随机参杂波动引起的【6】【7】,图1很好的显示了这一偏移现象。对于发生 的变化量,在大的SRAM阵列中经常出现,最终这一变化体现在亚阈值下的漏电流上,会有超过3个数量级的变化幅度(例如0.3v时)。据此,采用传统的技术如调节W/L尺寸来实现相关结构强度的提高并不可靠。 I_ON/I_OFF从大约10^7降至10^4,这说明当电压成为敏感信号时,I_ON结构和I_OFF结构间存在着一定的内在关系。当然,由于面积要求而使一些结构共享一个节点这本身存在着一定的错误。下面的部分着重介绍亚阈值电压下的MOSFET最基本的特征对于SRAM设计的带来挑战。 A.6T bit单元的失败处 图2(a)给出了6T单元,由于在亚阈值电压下信号的减少和参数的增加【8】使其不能正常工作。电路的比例特性说明了依靠相关强度的结构才能实现正确的读和写操作。例如,读静态噪声容限(SNM)【9】要求驱动结构M1/M2要比访问结构M5/M6要强,正如图2(b)给出的Monte Carlo仿真,在低电压下SNM消失变成负数。类似的,写容限体现了访问结构比负载机构M3/M4功耗高的特点,图2(c)显示下写容限在低电压下会消失,在写状态写值为正数。 SNM的维持依靠最基本的存储单元,即交叉耦合反相器(M1-M4)组成的结构。图(2)显示的是目标电压为350mv时维稳定性的维持能够得到保证。据此,在这个设计中,外围辅助和bit单元的拓扑能够减小读和写的限制,以便V_MIN能够达到被SNM所维持的限制电压。 B.读电流分布 在亚阈值电压下,由于低的门驱动,所以期望更低的读电流I_READ。然而,由于阈值电压参数的指数形式的影响严重降低了I_READ。图3给出了平均I_READ的分布,显示了由于参数而引起的I_READ的降低。在亚阈值电压下,I_READ已经大大降低了,这一影响是特别明显的,弱单元的I_READ很容易降低几个数量级的。 C.bit线漏电流 一个与I_READ减小相关的结果就是,共享相同bit线且未被访问的单元的总的漏电流会使传统的数据检测出错。通常,我们会区别性的检测到BL或者BLB电压有所减低,期望它们中的一个会保持高电平。然而,如图4(a)所示,未被访问的单元中的BL或者BLB bit线上的总漏电流会超过I_READ。在这幅图中,漏电流的问题被最大化,大电压通过漏结构下降,图4(b)绘出了弱单元的I_READ以及总共的漏电流I_LEAK_tol的图形(假设256单元/bit线)。在低电压下,I_LEAK_tol甚至超过I_READ,导致这两个bit线上的下电压降难以区分。 三:8T亚阈值bit单元 为了应对亚阈值SRAM的设计挑战,采用了如图5所示的bit单元。这一双端口单元的拓扑结构具有6T存储单元和2T读缓冲单元,后者在读访问期间与数据保存结构隔开。结果是二-A中提到的SNM的限制被消除【10】。另外两个限制因素,即在参数存在的情况下的bit线漏电流和写能力,依靠buffer-foot和VVDD控制这些外围辅助得到很好的处理。 A.“0”泄漏电流的read-buffer 单端8T单元的bit线漏电流和6T单元相似,除了来自未被访问单元的漏电流和来自访问单元的I_READ影响同样的节点,RDBL。因而,不论被访问单元的状态是什么,漏电流都能够拉低RDBL。图6(a)中给出了状态仿真,显示RDBL能够被访问单元正确下拉至低(实线表示),但是对于未被访问的单元由于漏电流的原因,也出现了RDBL被错误拉至低(虚线表示)。对64个单元测试RDBL状态结果仅是一个较小的采样,然而还会出现错误的情况,因而最终的集成将受到更大限制。 在本设计中,所有未被访问读缓冲的feet都被拉至VDD,如图6(b)。结果是,在RDBL被预充电后,读缓冲没有压降,没有亚阈值漏电流。图6(b)状态仿真显示即使在256个单元集成的情况下,RDBL仍能正确的保持高电平(虚线表示)。但是可以看到一些残余的压降,这主要是由于来自读缓冲结构的门泄漏和来自漏极的接点泄漏。 采用这种方法必须要关注的是,外围的NMOS footer结构需要使所有来自同一访问行的单元的I_READ降低。如图7所示,本设计中每行有128个单元,会使footer结构的电流要求过高。不幸的是,这一结构面临两方面的限制,不能简单的依靠增加尺寸来增强驱动,因为会造成未被访问单元的漏电流过大;另外,最终的面积增长会抵消使用外围辅助带来的密度优势。 取而代之,在本设计中,NMOS footer采用充电泵电路进行驱动,如图8(a)所示。这确保门驱动至少是600mv,而非350mv,由于footer是在亚阈值电压下,电流会按照指数形式增长,增长因子为500,如图示。结果是,footer可以采用近似最小尺寸,在未被访问的行中它们的漏电流损耗可以忽略不计。另外,由于门节点具有最小电容,充电泵和驱动电容的面积可以很小,比起一对bit单元面积,它们的面积微乎其微。充电泵本身适用于超低电压的应用中,因为它采用了PMOS,M1去预充电驱动电容,独立于阈值电压的下降。图8(b)的状态仿真显示了当某行被访问时,它的BFB节点电压增至2VDD,下面的NMOS很容易将被访问的读缓冲feet拉低。 B.内部单元反馈控制 由于参数的存在,写错误会发生,我们不能保证访问结构的强度会高于负载结构的强度。然而,采用电路辅助可能迫使相应的强度实现。例如,为了增加访问的NMOS的门驱动,可以适当的将bit线电压被拉至地以下,或者是将字线电压增到VDD以上。不幸的是,这两种方法都要很大的电容,bit线或字线都会超出它应有的轨迹。一种替代的方法,能够避免精确的基准电压增长,包括依靠减小单元电源电压来减弱PMOS负载。如图9所示,随着电源电压的降低,被访问结构的强度需求也被减弱,体现在减小最小字线电压却成功写入。因而,在本设计中,在350mv电压下的依靠轻微增加写字线电压(50mv),写能力能够得到保证,但更重要的是依靠降低单元电源电压去削弱PMOS的负载。 如图10(a),每行的所有单元共享一个virtual电源节点,记为V_VDD。在第一次的写周期中前半段时间里,V_VDD被外围电源驱动拉低。然而,如图10(b)所示,由于所有的被访问单元导致电压被拉回的缘故,V_VDD并未降至地。而且,由于其中的一个bit线被拉低,致使相应的存储节点QB电压下降。相应的,PMOS负载趋于打开,会形成一个从存储单元到V_VDD的电流路径;在这种情况下,单元的一半,通过PMOS负载和NMOS访问结构,会使V_VDD被拉回原来的状态。由于电源驱动的拉低强度够大,它们成为最小的局部参数,相似的,通过所有被访问的bit单元,拉高路径趋向于平均。有重要的一点要指出,电源驱动会使未被访问的行出现额外的漏电流路径。为了最小化漏电流,采用了一系列的拉低NMOS结构,这点利用了堆叠效应【11】。