原创 哪种接口更具魅力?

2007-6-21 10:48 2521 2 2 分类: 通信

作者:Maury Wright,EDN总编 


发表时间:2005-10-02


在SAN领域居首要地位的是光纤通道,InfinIBand正在计算机集群领域发展,而具有更快速特点的以太网像一位潜在的万能博士正在隐隐出现。


  典型的企业 IT 部门都要支持三种网络:连接 PC 和服务器的以太网;FC(光纤通道)与负责将服务器连到存储阵列的 SAN(存储局域网)相连;而专用的互连技术(Myrinet 或新兴的 IB-InfiniBand的缩写)则用于连接主要面向多线程任务如数据库存取的服务器集群。但对于电路板和系统设计师来说,这种局面可能会有显著的变化。IB 的支持者认为IB首先将在集群中立足,然后再转向存储应用,而 10 GBE(10-Gigabit 以太网)的拥护者则认为 LAN 技术将在各个领域获胜。即使你不设计服务或存储产品,也无法躲避这种变化的局势。如果一种互连方式能在这些应用中胜出,则肯定能在大批量部署由企业源源不断提供的低价 IC 所推动的各种专门应用中找到用武之地。
  大约在一年多前,Broadcom公司 宣布了所谓 的C-NIC(会聚式网络接口控制器)IC(图 1),并毫不讳言地称其目标是用以太网代替 FC、IB 和存储应用及集群应用中的专有技术。它根据 IETF(互联网工程任务组)的 iSCSI 标准(互联网小型计算机系统接口),提供在 TCP/IP(传输控制协议/互联网协议) 网络上移动大块存储数据的方法,并能远程管理存储资源。同时,作为一个 RDMA(远程直接存储访问)联盟的标准,TCP/IP 的 RDMA扩展既能支持 iSCSI 块操作,亦能支持集群所要求的从一个系统到另一个系统的低延迟数据复制。尽管以太网可能仍然不能满足这些应用的要求,但 TOE(TCP/IP 卸载引擎)和类似的技术可以解决这个问题。


  很早以前人们就经常把以太网和 TCP/IP 的某个特色用在似乎不属于它的应用中。嵌入系统通常使用低成本的以太网芯片,用于连接相对不太复杂的传感器和控制系统。EPON(以太网无源光学网络)技术是一种具有光纤宽带特点的技术,运营商可以用来支持所谓的三重服务(Triple play)和 IPTV。系统建造商甚至在基于 CompactPCI 总线的系统底板上采用以太网进行板至板通信。其它结构(如先进交换互连, ASI)可以替换以太网的系统结构角色(见附文:“了解先进交换互连”)。所有这些互连结构都在计算架构拼图中占有自己的位置(图 2)。Rick Maule 是新兴的以太网芯片供应商 NetEffect公司的首席执行官,他表示:“我们相信这句谚语是对的, 那就是:如果以太网可以做到,它就会做到。” 以太网对存储与集群互联是一种很有吸引力的选择, 原因是多方面的。如果所有的数据、存储和集群都建立在以太网上(即使它们的实现是在实际上隔离的以太局域网上),IT 部门就能够只使用一套网络管理工具。如果以太网确实出现一个飞跃,10 GBE 成为一个广泛使用的技术,那使用以太网肯定比使用 FC、IB 或其它技术便宜。以太网可以在单一网络上携带数据、集群与存储的混合流量.



  企业的天堂


  Dell 公司 PowerEdge 服务器的营销主管 Tim Golden 认为:“宽管和单一结构的概念都是大有希望的。”Golden 宣称从 IT 观点来看,天堂应该是“从单个远程点去管理所有资源的一片云彩”。Broadcom公司 的 C-NIC 是第一个进行推销的营销工具。


  那么,以太网肯定会赢吗?没这么快。以太网高效的包传送与基于碰撞的 MAC(介质访问控制)机制和 TCP/IP 并不能完美地配合存储和集群应用,这些应用需要低延迟和能够得到保证的服务质量。另外,当以太网达到 10GBE 级时,价格是否依然低廉还不能得到确定。


  首先考虑一下成本。在进入 1GBE(千兆位以太网)时,我们可以很容易地断定以太网应用会是让宽带市场接受的下一代技术。现在虽然企业并未完成交换机和路由器的全部升级, 但供应商给所有客户交付的产品几乎都带 1GBE 端口。另外,像视频传送这类应用也会促成 1GBE的普遍应用。但对 10 GBE来说,即使芯片厂商用减小工艺尺寸的办法来降低 10GBE 的成本, 10GBE 是否会走 1GBE 的老路却仍然很难说。


  大多数以太网支持者都指出,就数据速率与存储来说,技术行业具有“车到山前必有路”的特点。但对 10 GBE而言,也许很难判定什么应用需要这么高的数据速率和技术。最终采用的理由可能是通过网络快速传输一个大数据文件(如一整部长长的电影)的速度,而不是播放流媒体电影的传输能力。


  Broadcom 公司认为这是一个相互促进的过程。C-NIC公司的 产品线高级经理 Allen Light 承认,他的公司正在帮助人们转向 1GBE。但 Light 称几乎所有公司现在交付的服务器都有双 1GBE 端口。他说,IT 经理们很快就会发现并开始使用超出带宽限制的存储应用。存储流量的过渡将产生更高的流量需求,最终导致 10GBE 的大量应用。NetEffect公司的 Maule 称,服务器设计师有一个惯例,即当新一代以太网价格为前一代价格的 2~3 倍时,新一代以太网就进入实用的设计,基本上这是一种“保护未来”的设计方法。Maule 说:“服务器采用这种技术,能够获得几百万台的批量,使额外费用降低 30% 或 40%,这样顾客就会接受。”


  正在降低的价格


  另一方面,尽管低价仍是以太网常用的杀手锏, 但今天的 IB 已经相当廉价了。Mellanox 技术公司是唯一一家真正的 IB 芯片商业性供应商。Topspin 通信公司也曾开发了IB 芯片和诸如 IB 交换机的系统级产品,。但 Cisco公司 收购了 Topspin公司,于是该公司的 IC 只用于 Cisco 公司自己的 IB 交换机和其它产品中。PathScale公司 也开发了一片 IB ASIC,用于板级产品。现在尚不清楚该公司是否会进入芯片级业务。而 Mellanox 公司已经将芯片价格降至 100 美元以下。它在三月推出了 InfiniHost III LX 芯片,批量价格低至 69 美元,而双端口芯片的售价约为 200 美元。Mellanox 公司的营销副总裁 Ted Rado 称,该公司已经交付了 50 万个 IB 端口,其中 30 万个是去年交付的。Rado 说 10 GBE 的交货量还不到总量的十分之一,IB 正享有批量的优势。


  作为以太网的拥护者,Siliquent 公司营销副总裁 Debbie Vogt 并不想质疑现在 IB 的价格优势。Siliquent 公司据说是第一家交付可以支持存储和集群应用的10GBE 芯片的公司。Vogt 也承认现在的 10 GBE 连接(在电缆两端各要一块芯片)要比 IB 连接贵上三到四倍。但是,Siliquent 公司高层相信,以太网才是集群与存储应用的未来。Vogt 表示:“通过一个 IP 架构完成任务的能力是非常强大的。”


  实际上,价格的比较远远超出了 NIC 价格范围。最终,人们还必须把交换机和其它基础架构设备的成本考虑在内。正如 Broadcom公司 的 Light 所说:“TOE、RDMA 和 iSCSI 都是终端上的事情,”意指标准的 10 GBE 交换机能方便地处理存储与集群流量,而价格看来要比 IB 交换机低得多。



  顽强的竞争者


  价格显然是唯一的比较点。但你也要从性能角度评估以太网和其它竞争者。在存储领域,FC 是强劲的竞争者。FC 最初是一种 1Gbps 的互连,现在 广泛用于2 Gbps,而且FC业界正在进行 4Gbps 产品的早期测试。FC 的开发者比如 Oracle公司, 用一种相对较薄的协议层进行设计,面向大型数据库的块级数据存储和数据控制需求。在存储中心的应用中,互连也有用武之地,如数据镜像和透明备份与恢复。更多的有关背景信息,请查看光纤通道工业协会的网站。


  对于集群的情况,已有的安装基数各种各样。有些超级计算机供应商采用专有的互连技术。Mellanox公司 宣称有一些关于IB集群的案例研究,你可以在该公司网站上查到详情。由于 IB 采用的是 8b/10b的编码, 在相当于 10 GBE 的信号传输速率下,IB 可提供 8 Gbps 的数据速率。IB 可以通过增加信号传输通道实现升级,支持者们正在计划一种倍速的数据速率,但 8 Gbps 特点似乎已能在近期宽带中获得应用。更多背景信息请访问 InfiniBand 贸易协会网站。


  但是,与集群部署的整体数量相比,IB 集群的安装量还相对较少。大多数已部署的非专有集群现在都采用 Myrinet 技术,它来自一家小型私人控股公司 Myricom。该公司为大多数主要服务器供应商提供 Myrinet 主适配卡和交换机,它的客户包括惠普公司、Sun公司 和 IBM公司。Myrinet 技术现在有一种全双工、2 Gbps PHY(物理层)以及一组路由与连接规格,ANSI 已经将它们标准化。Myricom公司 还为集群工作增加了一组专有的协议层和软件层。


  在 Top500 超级计算机网站页面上,可以快速找到尖端集群的部署情况。该网站每半年公布一次全球最强大高性能计算机安装情况的新列表。点选数据库那个标签,按互连类型对数据作分类,就可以看到 Myrinet 现在的成功之处。但要注意它的分类法不完善,因为它至少将一些使用某种形式 IB 的系统归为“混合”互连类,而一些 Myrinet 系统也可能要遭受同样的命运。


  无论如何,显然Myrinet、IB和 FC的数据速率都超过1 GBE。Broadcom公司仍然认为在存储与集群应用中有许多 1 GBE 业务,所以该公司不急于推出 10 GBE 产品。但大多数承认,以太网需要转向更快的 10 GBE 才能获得成功。而挑战仍是以太网的延迟及以太网与 TCP/IP 的最佳服务质量。


  延迟是关键


  对延迟的定义、说明和基准测量方法有许多种,但对接口和网络类型没有一致性。FC 产品经常称自己的延迟小于1ms。Myrinet和IB也提供低于5ms、在1ms~3ms范围内的延迟。标准的以太网延迟要大于 50ms,甚至会进入数百微秒范围。


  以太网延迟的局限性来自于冲突基础上的 MAC 协议和 TCP/IP。TCP/IP 事实上从两个方面影响着延迟。TCP/IP 可以作无序数据包处理,在传送后进行重新组装;TCP/IP 过于复杂,数据传送需要相当大的处理开销。


  像Mellanox公司这样的IB支持者则称,在 10 GBE 速率下,一个主处理器会把 90% 的时间花在TCP/IP 处理上。Mellanx公司的Rado表示,该公司运行在全线速下的IB芯片只需要3%~4%的CPU周期作开销。Myricom公司的首席执行官Chuck Seitz 的说法更令人吃惊。Seitz 
说,如果有两个Myrinet系统,一个系统可以从其中的用户内存向另一个系统的用户内存传送1M字节的数据块,而两个系统的CPU只在传输上花费0.3ms。


  许多工程师和IT专家早就对以太网协议复杂性问题有所了解,在16位 CPU 时代,以太网卡就要为 TCP/IP 任务专备一个处理器。经过多年发展,主 CPU 已经足够强大,而 TCP/IP 成为主机微不足道的任务。现在,当转向 1GBE 甚至 10GBE时,TCP/IP 的开销成为许多应用中主 CPU 无法承受的重负,而且这也是存储或集群网络必须面对的一个问题。


  最近以来,芯片供应商们用在自己的产品中集成 TOE 的办法来降低协议的影响。事实上,包括 Broadcom公司、NetEffect公司、Siliquent公司 和 Astute Networks公司在内的所有以太网支持者, 都把 TOE 列为一种标准特性。但光靠 TOE 无法使以太网成为一种高效的存储或集群结构。NetEffect公司 的 Maule 称,与 TCP/IP 相关的数据包处理只占以太网总开销的 35% 到 40%。像中间缓冲复制这类任务占 20% ~ 25% 开销。他补充说,操作系统的开销(移入、移出内核空间以及处理中断)可以占到 40%。Maule 表示:“必须使开销降低 90% 以上。”


  Maule 认为新的 iWarp(或高速互连网)标准是解决问题的答案。该标准建立在 RDMA 和 TOE 上,是由新罕布什尔(New Hampsire)大学计算研究中心的互操作实验室开发的。iWarp 标准采用一种“操作系统旁路”技术,运行在两台计算机上的应用程序可以在没有操作系统介入情况下交换数据块。Maule 称 TOE 处理协议开销,RDMA 处理缓冲复制问题,而 iWarp 解决操作系统问题。


  可以购买吗?


  10 GBE 看来很有前途,但现在就能买吗?买来后它能用吗?一年前,Siliquent 公司第一个推出了相关芯片。现在有 500 美元的 SLQ1010 和 4 Gbps 的 SLQ1004 芯片,但 Siliquent 公司还没有宣称哪家设备供应商交付了采用这些芯片的设备。该公司的 Vogt 预计客户很快就会开始交货。她表示,这些芯片完全支持 iWarp,而用 iWarp 的延迟现在低于 10ms。她还相信未来能够达到 5ms 的延迟。


  与此同时,NetEffect公司去年 11 月宣布推出一种iWarp产品,Maule 承认产品刚刚上货,但他允诺今年可以见到产品。现在你可以买到带 TOE 能力的 10GBE 板级产品。Neterion公司(前身是 S2io 公司)和 Chelsio公司 有这类产品,但两家均尚未宣称支持 iWarp。惠普公司已开始交付采用 1GBE Broadcom BCM5706 的产品,并且表示出对会聚网络体系的支持。Broadcom公司 现在也有一种 C-NIC 系列的 2.5 Gbps 产品。


  Astute 网络公司可能在 10 GBE 芯片开发道路上走得更远,一年前它就演示了基于 10 Tensilica RISC 核心的 Pericles 芯片。而这第一个芯片包括了 SPI-4(系统数据包接口,第 4 级)接口,面向 10 GBE 连接的系统端。该公司从那以后把目光重新对准 SAN 应用的存储设备,并正致力于提供它的下一代产品。Jon Siann 是 Astute公司 的营销副总裁,他说公司充分认识到了要赢得客户,光靠对 TOE 和 RDMA 的支持是不够的。公司从过去的经验中形成了决策,即将注意力集中于 SAN,Astute公司 将为它提供全套存储软件,如镜像和数据迁移应用程序。Siann 并不认为一种 IC 设计可以同时在集群与存储两个领域获得成功。他说:“你不可能获得双赢。”


  短期来看,设计师只有在集群中用 Myrinet 和 IB,而在存储应用中用 IB 和 FC,别无选择。尽管有许多超越以太网的声明,Dell公司的Golden 仍表示:“在今后几年内,IB可能仍是最佳选择。”IB看来势头正旺。Mellanox公司 的 Rado 则更彻底,他说:“我不相信摩尔定律可以忽略以太网的TCP/IP开销问题的理论。”Mellanox公司的高层认为,用补偿以太网不足所需的硅元件数量就能让 IB 保持价格优势。另外,Rado 还指出 IB 会在 10 GBE 降低成本曲线之前将速率加倍。


  但从德国海德堡的国际超级计算机大会上传出的消息可能会产生一些变化。Myricom 公司正在计划下一代 Myrinet:Myrinet-10G。10 Gbps 技术将迁移到 10-GBE PHY,并且保持 Myricom 的集群协议和软件层。实际上,市场上最常见集群技术的速度也快于 IB。


  Myricom公司 计划以更为低廉的价格推出该技术。NIC 价格将为 795 美元,而交换机每端口只要 400 美元。此外,该公司开发的新型 IC 可以运行 Myrinet 协议或 TCP/IP 协议,这样新的产品也可以处理以太网流量。Myricom公司 一直为自己的产品设定以太网 MAC 地址,并用标准的以太网驱动程序作产品的支持。Myrinet-10G 的推出也会使 Myricom公司 成为一个成熟的芯片供应商。


  Myrinet公司首席执行官 Seitz 声称,Myrinet 已经具备和 IB 相抗衡的显著优势。他说:“对 InfiniBand 来说,RDMA 非但不是答案,反而是问题的一部分。”他表示,IB 标准在 RDMA 的实现方面有缺陷,这一缺陷不仅会提高对内存的要求,还会损害性能,因为一个应用不能够从一台机器的用户空间将数据块传输到另一台机器的用户空间里。NetEffect公司 的 Maule 基本同意这个观点。NetEffect公司 最开始是与 Banderacom公司一样采用的是 IB,NetEffect公司高层认为从 IB 中得到的经验在追踪 iWarp 时提供了很大帮助。Maule 称 IB 有一种用户级的直接存取问题。


  同时,在存储应用方面提出了一个很好的问题:为何 FC 要有替代者。一种理论认为, TCP/IP采用的网络连接存储(NAS)设备要比 SAN 系统便宜得多,而 iSCSI 可以进行 NAS 设备的远程管理和访问。但是,即使在 SAN 环境中,SAS(串行连接 SCSI)或 SATA(串行 ATA)也将很快代替今天 SAN 设备中所采用的原生 FC 驱动器。在 PHY 层上,SAN 的 FC 结构不同于驱动器阵列中的 FC 环路,但两者共享存储协议。随着驱动器转向 SAS,看来会新生一种远离 FC 的动力,因为它将成为企业间的另一种桥接接口。但是,除了 Mellanox公司,要找到一个相信 IB 会接管 SAN 应用的人也不容易,FC 可能会在很多年内仍有兴旺的市场。


  理解先进交换互连


  ASI(先进交换互连)串行互连技术可提供专有结构的高性能,它具有基于标准的规模经济性以及 PCI Express 的生态系统。


  通过对传输层的改进,ASI 扩展了 PCI Express 的功能,支持多种会聚计算与通信应用(图 A)。ASI 的主要特性包括低延迟、点对点通信、多层 QoS(服务质量)、先进的拥塞管理、高可靠性和失效恢复机制、支持多协议和多播,以及内置安全性。ASI 面向底板及局部机载互连应用,以及机箱至机箱的通信。


  ASI 可提供多达 20 个虚拟通道,其中 8 个为旁路通道,可以传输负载与存储协议;8 个只用作命令;4 个为多播,几乎可用于任何应用仿形。在逻辑层,它的每个虚拟通道类型可支持 8 个流量类别,用于 QoS 和流量的差异化。ASI 采用基于信用的连接层流控机制。在拥塞管理方面,它支持基于状态的流控、缺陷率控制、最小带宽,或供应商定义的出口安排。


  ASI 保持着兼容性,提供对多数既有基础架构的高效支持机制。这一目标的实现是通过多种原生的数据移动协议、软件语义,以及通过一种通用结构技术实现的与协议无关的隧道作用。PI-2(协议接口 2)用于一般数据传输,提供了一种可靠的传输机制,有内置分割与重组的消息通行架构。用户可以用它来实现各种终端设备的互操作,如 NPU(网络处理部件)、CPU、微处理器和 DSP。ASI 定义了 PI-0 至 PI-95。PI-96 至 PI-127 是留给供应商的专有协议。协议设置如下:


  ● PI-0: 生成树,
  ● PI-1: 拥塞管理,
  ● PI-2: 一般数据传输,
  ● PI-4: 设备管理,
  ● PI-5: 事件报告,
  ● PI-8: PCI Express 隧道,
  ● PI-E: 以太网隧道,
  ● PI-9: 套接字-数据传送,
  ● PI-10: 简单负载存储,
  ● PI-11: 简单排队(SQ).


  ASI 未指定 PI-12 至PI -95。


  结构管理能力也是 ASI 协议支持多种服务的组成部分,如连接设置与拆卸、事件管理、性能与正常监控、冗余路由、路径无效、资源分配与负载平衡等。


  ASI 与 PCI Express一样,通过使用相同的 PHY (物理层)和数据链路层,提供一个可升级的架构。它支持单、双、4、8、12、16 和 32通道配置的 2.5 Gbps 串行连接技术。第二代的 5 Gbps 串行连接技术正在出现。ASI 可以与不同应用要求的多种端口带宽灵活地进行自适应与互操作。它还支持通道逆转功能,以防止一个通道的问题造 
成整体连接的故障。ASI支持多种结构拓扑,如网格、星形、双星形以及双双星形,并且可以集成复杂的会聚管理与端到端流控能力,级联为更大的拓扑结构。


  ASI 面向企业、通信与嵌入系统需要的高性能结构。典型应用包括企业存储路由器与阵列、刀片服务器、电信边缘、接入及城域交换机和路由器,以及嵌入系统计算,如军用和医用成像。ASI 可与任何协议一起工作,有广泛的业界支持和成熟的生态系统产品,提供优于专门技术和定向技术的优势。 


 


 
 


 
PARTNER CONTENT

文章评论0条评论)

登录后参与讨论
我要评论
0
2
关闭 站长推荐上一条 /3 下一条