本文作为“快速循环RAM(FCRAM)”技术应用的第一部分,将介绍具有简化特性集、更低随机周期时延及更快总线转向时间的FCRAM 技术基本架构与工作原理,以及与其它新兴DRAM解决方案的性能比较。下一期将刊出的第二部分将探讨FCRAM技术如何使10G联网应用(特别是 10Gbps/OC-192线卡实现)受益。

如果回顾一下动态随机存储器(DRAM)过去的发展,就会发现,考虑到PC市场的需求,DRAM已经历史性成为主要的开发对象。由于这一影响,其它应用设计者不管是否适合其应用都被迫使用“PC DRAM”。特别是,这些PC DRAM已经为那些试图提供2.5Gbps及以上数据速率的联网设备开发商设置了瓶颈。
幸运的是,已开始有相应的解决方案。几种针对联网设备设计需求而优化的新型DRAM架构目前正冲击市场。
一项由东芝及富士通公司共同开发的FCRAM技术,正是这样一种针对联网设计界而迅速涌现的解决方案。FCRAM的主要优势包括DRAM密度与接近 SRAM速度的随机循环性能、可实现快速随机存取循环时间的专有核心技术、可提供更短随机存取及循环时间的架构以及结合传统DDR接口(采用一种成本效益更高的DRAM技术)的高带宽等。
传统自适应方法
过去,DRAM性能增强主要集中在架构修改上,譬如通过为 I/O增加高速逻辑来提高器件的峰值带宽等。例如,同步DRAM(SDRAM)、双数据速率(DDR)SDRAM及Rambus DRAM(RDRAM)等,都基本上采用同样的存储器内核(单元阵列),并拥有不同的高速I/O逻辑实现,以实现其各自的峰值带宽提高。
尽管这些性能增强可在某些特定应用实现所期望的系统性能提高,但它们不可能在其它应用中也达到同样的目的。例如,增加DRAM峰值带宽可提高其在PC中的性能,因为PC主要是用主存储器来满足CPU的高速缓存要求。但这可能对以短的随机数据包为特征的联网交换环境没有多大效果。
人们用多存储器层(bank)方案来尝试减少这些侧重于PC应用的DRAM的执行时间。在这些方案中,当前不执行存取的存储器层处于预充电状态,所以如果下一个被存取数据字包含在预充电层的某一个中,便可减少循环时间。

增加更多存储器层所面临的主要挑战是DRAM的成本会提高,此外,当下一个数据字处于执行(非预充电)层的不同行内时,则在下一次存取能够开始以前,当前存取必须完成并对存储器块进行预充电。前面所提到的架构没有一种能满足这种“同一层”执行时间。此外,时延并不仅仅是存储器层数量与随机循环/存取时间 (tRC/tRAC)的函数,同时也受总线转向时间的影响。
走进FCRAM
FCRAM特地为满足通信设计人员的要求而设计。尤其是,开发此项存储器技术是为了在减少随机周期时延(随机存取及周期时间)的同时提高峰值带宽。其真正含义是,在某些特定应用中优先考虑有效带宽,尤其在那些以短数据包及随机环境为特征的联网应用中。FCRAM的特性包括:
1. 三级行流水线操作;
2. 快速存取内核;
3. 简化的DDR特性集;
4. 快速总线转向时间。
正如前面所讨论的,许多DRAM都通过利用I/O逻辑增强来提供性能增强,这也可称之为列流水线操作。换言之,即可减少DRAM的列地址周期时间,从而获得快速猝发速度。通过采用类DDR的特性集及接口,FCRAM也同样能提供这种快速猝发能力。
DDR,正如其名字所表示的,输入输出数据位于时钟上下沿,故与单数据速率SDRAM相比其峰值带宽可提高一倍。例如,如果时钟速率为133MHz,则 SDRAM的数据速率及峰值带宽分别为133MHz与133Mbps。而采用同样的133 MHz时钟,DDR却能提供266MHz的数据速率及266Mbps的峰值带宽,且基本上采用与SDRAM一样的工艺技术及存储器内核设计,仅对I/O电路进行很少的修改。FCRAM采用了与DDR相同的大部分电路修改,以至它在给定时钟频率下也能产生同样的峰值带宽。
此外, FCRAM还执行一种称为三级行流水线式操作的方案,这可提供极大的行地址(随机)循环时间改进。通过将行流水线式操作与快速存储器内核(主要通过将内核分段成可极快速存取的更小子阵列来实现),FCRAM可获得快速随机周期/存取时间(图1)。在参见此图时,设计者应注意到,FCRAM的tRC及 tRAC都有改进,同时,新的行地址及命令可在当前周期完成前提供给FCRAM(行流水线操作)。
FCRAM的行流水线三级分别为地址译码器、存储器阵列及I/O缓冲器。在典型的DRAM中,当提供行地址时,DRAM必须先将其译码,找到其在存储器阵列中的位置,然后再从存储器阵列中将数据读出到I/O缓冲器(或在写周期时从I/O缓冲器读出到DRAM)。由于这些功能必须串行执行,故传统DRAM在完成当前操作前(完成全部三级) 不能开始下一个行地址序列。
通过使这三种功能流水线化,只要当前行地址在译码器中被锁存,FCRAM即可开始下一次行地址访问。 FCRAM甚至还能在第一行地址使数据从存储器阵列移送到I/O中(或在写周期时从I/O写入存储器阵列)时即开始对第三行地址进行解码。结果,与其它类型DRAM(如DDR)60至70ns的随机周期时间相比,FCRAM的随机周期时间仅为20至30ns。
功能差异

除流水线操作差异之外,FCRAM产品还能为通信设计提供一些优于传统DRAM的关键特点。这些功能差异包括:
1. /RAS,/CAS及/WE引脚由功能引脚(FN)及两个附加地址引脚(A13&A14)取代。在第一条命令期间(传统的RAS激活),FN的状态决定一个读或写周期且上半段(行)地址用A0-A14锁存。第二条命令(CAS激活)锁存下半段地址。请注意,行/列地址的非对称数(亦称为侧面寻址) 是一项可让FCRAM获得更快随机存取及周期时间的创新;
2. FCRAM读/写命令总是包括自动预充电,在没有预充电的命令和单个的预充电命令以及被复用的自动预充电(A10/AP)引脚,这能省去读写命令;
3. FCRAM将/PD引脚而不是将时钟使能(CKE)用于关电模式,从而消除了对CKE-时钟时序的依赖;
4. FCRAM拥有可变写猝发长度(利用A11-A14),这能省去字节屏蔽命令及为每8个I/O所用的数据屏蔽(DM)引脚;
5. FCRAM的写CAS时延(WL)等于读CAS时延(RL)减一个周期。与WL固定等于一个周期的其它DRAM相比,这能极大减少读-写及写-读总线转向时间;
6. 其它SDRAM/DDR功能,如猝发停止及页模式等,都能被取消以简化FCRAM控制器设计。
图2及图3突出体现了以上描述的这些变化。
FCRAM是一种简化版的DDR,但与DDR紧密兼容,以使存储控制器设计能利用这两种器件中的任何一种。假设DDR性能可被接受,则可选用侧重于PC应用的DRAM解决方案,但FCRAM的性价比优势应使其成为某些特定应用中的首选方案。
FCRAM与DRAM性能比较
正如前面所提到的,通常按照峰值带宽来显示DRAM性能高低, 即简单地将猝发模式时钟速度乘以I/O引脚数,而并未考虑随机周期时延或总线利用率。为便于说明,图4给出了FCRAM与DDR的性能比较。图中显示每种器件的时钟频率及所计算的相应峰值带宽。
为确定有效带宽,设计者必须先确定总线效率,即器件输入或输出数据时的时钟周期数(有效数据总线周期数)与用于特定微处理器请求的时钟周期数之比。在图4中,此微处理器请求为8字长读猝发加8字长写猝发。
总线效率为下列参数的函数:
1. 从CPU请求至第一个有效数据字的起始时延(DRAM的tRAC);
2. 猝发长度;
3. 预充电“处罚”——如果后面被存取的数据字与当前存取的字处于同一层中(即tRC,为DRAM预充电时间加tRAC的总和);
4. 总线转向时间。

总线效率与这些参数的依赖性如下:
1. tRAC/tRC越快,总线效率越高;
2. 猝发越长,总线效率越高;
3. 总线转向速度越快,其效率越高。
猝发长度与应用有关,但tRAC、tRC及总线转向时间与DRAM有关,且FCRAM在这方面拥有优势,因为它在前面提到的架构及功能改进上优于其它DRAM。
在图4中,总线效率针对两种情况计算。第一种称为存储器层交错情况,即连续数据读/写周期总是从预充电层上执行,亦即当前访问的总是不同的层。更详细的讲,最大猝发长度为4个周期,故在这种情况下,8周期的猝发实际上是4周期猝发接着另一个来自预充电(不同的)层的4周期猝发。相反,第二种情况则是第二个4周期猝发从与前一个猝发所处相同的层中发出。
正如所预期的,对于相同层存取总线效率相当低,但DDR与FCRAM的的总线效率下降分别为37%及9%。换言之,FCRAM真正显示出其减少高随机性应用中相同层存取所造成影响的能力。
确定真正的总线效率
为确定真正的存储器总线效率,设计者必须考虑系统/CPU开销及应用的随机性。随机性可定义为发生相同层存取的时间百分比,这与应用有关。
正如前面所提到的,给DRAM增加更多的层虽有改善随机性的效果,但也会增加DRAM的成本。而且由于收益递减规律,增加更多的层也不会明显将性能提高超出一个特定的值。根据系统及DRAM设计者对成本/性能折衷的经验,业内似乎已将4个层作为理想数字。在图4中,计算所采用的FCRAM及DDR器件都拥有4个层。
图4中最后一个值得注意的现象是,FCRAM所使用的时钟频率要高于DDR所使用的时钟频率。这主要是因为FCRAM 用户要求更快的速度(FCRAM由于其简化的命令结构及更快的tRAC/tRC而能达到更高的频率,从而获得更好的时序裕量),而DDR市场目前采用 100/133MHz作为其“主流”产品。无论采用怎样的频率,FCRAM总线效率的提高以及由此而获得的带宽增加都是明显的。
总之,DRAM市场正朝着提供更多专用架构的方向发展,这对于通信设计人员来说应该是个好消息。FCRAM是一种非常适合那些要求低时延及高带宽应用的架构。FCRAM在这类应用中有很好的表现,因为它能使系统设计者方便地用一个公共接口来同时支持DDR及FCRAM,而且还能获得FCRAM在简化特性集、更低随机周期时延及更快总线转向时间上的优势。结果可以最小的成本增加来获得显著提高的有效带宽。