数据中心的系统互连架构设计和物理布线互连设计日益成为数据中心的焦点。基于光互连速率和密度的不断升级展望,人们对数据中心的架构设计和投资成本回报性产生了踌躇和疑虑。数据中心的系统设计横跨了多个学科,确实很少人能对数个学科的未来都有精确的预计。基于不同存储量和不同计算量的数据中心理应有不同的设计模型,希翼本文对链路采用平行和波分复用的架构讨论能够厘清一些思路,带来更多有益的思考。 数据中心是一个含混的概念。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。因此大家在考量数据中心设计的时候必须基于计算能力、存储能力,互连能力,以及环境控制和监控能力来做对应的设计,这些设计无疑将带来计算成本、存储成本,互连成本,以及环境控制和监控的成本。如果大家不清晰地依据当前的技术以及当前的需求,结合未来需求和未来技术展望性做出合理的规划,数据中心会成为一个巨大烧钱的仓库。数据中心一旦建成,其是不可逆的。架构设计师必须非常小心! 在数据中心内。普遍建议的光互连方案如下: 基于系统对运算和传输速率的不同,系统设备的内连可以采用10G AOC(300米链路),4*10G AOC(300米链路) 和4*25G AOC(100米链路) 以及100G PSM4 技术(500米到2公里)。近年来海量数据中心更引入CWDM4(2公里链路)作为减少光纤数量管理的手段。由于不同方案会带来不同的性能和成本,大家认为:链路采用多模光互连技术是最成熟和最合理的方案,按照目前的成本估量,40G 多模链路的成本是10G 多模链路成本的2.5-3.0倍,而100G 多模链路大约是40G 的2.5-3.0倍,其中40G/100G 多模链路采用的均是MPO 多模光纤,意味着从40G 到100G 可以实现技术的平滑升级,并不需要触动现有的网络布线架构. 人们之前一直担忧多模VCSEL 的技术瓶颈到25GB/b将是极限,从而对多模数据中心的可延伸性产生了顾虑,近而放弃多模数据中心架构直接采用理论上(注意是理论上)可一直扩展升级的单模数据中心架构.可是最近的研究表明,50G VCSEL NRZ 技术并不是问题,在同样的QSFP28封装空间内,可以轻松地实现8*25G AOC 光互连.这使得系统架构面向8*25G 和4*50G 根本不是问题.可能人们进一步会担心400G VCSEL 技术可行性,目前尽管大家没有结论,但是400G VCSEL 遇到的技术瓶颈和单模400G遇到的技术瓶颈是相同的.某种意义上,是错觉打乱了人们的眼睛,就已知的常识,200G VCSEL AOC将进一步缩短传输距离(估计是50米),但是康宁的OM5光纤可以很好地弥补这一缺陷.问题当然还在于,采用OM5光纤将需要更换现有的布线架构.但是这个问题和其它问题是纠结在一起的,并不适合单项的做结论,它需要就其它技术做权衡取舍. PSM4技术是对多模100G 数据中心的补充.目前业界低估了PSM4技术的潜在性.而把焦点放在了CWDM4技术上.这或许多少有些误区.PSM4技术采用的是单模MPO 光纤传输,目前的传输距离到2KM非常轻松,而不是行业标准的500米,其实PSM4技术应该是10KM 传输的规格,只是业内对于它的应用几乎是不假思索的定义为2KM.这是一个焦点被转移后错误的认知.从一开始,分布式计算和并行传输就应该是这个领域的纲领性标准.100G PSM4的成本应该是100G VCSEL 的3倍.,只要人们愿意,未来可能降低到1.5-2倍水平.相对于100G CWDM4技术,PSM4技术使用了4倍光纤数量,光纤的成本可以假设为零,系统设计者考虑最多的是:一,光纤资源的有限性和日后可扩容性, 二,数据机房的布线成本.让大家细致地讨论这些集合不同领域的常识和见解,然后给出一个建设性结论 l 光纤传输之所以采用粗波分复用和密集粗波分复用是由于已经布设的光缆资源的有限性,所以设计者考虑用波分复用设备替代单波长设备.在光纤资源并不紧张的情况下,这种空分复用技术本身是增加成本的,因为光纤成本接近于零,如果空间建筑允许,第一次布设的时候应该布设足够的光纤以便于日后扩容采用.数据中心和骨干城域网不同, 骨干城域网的光缆建设已经完成,不管是之前思虑不周还是没有了望到更长远的需求,地底下被埋设的光缆资源都是有限的,因此必须启用波分复用技术.但是数据中心不同,数据中心属于第一次建设, 它不需要采用未来还不明确的在哪种速率和带宽下的波分复用技术.不能为波分复用而去做波分系统,波分复用仅是对现有光纤资源的一个有效利用手段,这个手段需要付出很多成本代价,但是在现在的需求看来基本是没有必要付出的.波分复用仅是同一种速率下的密度升级,按照现有的模块与系统设计,它的第一次部署等同于喧宾夺主或者本木倒置,必将阻碍系统的速率和带宽升级. l 现有的100G CWDM4 模块是无法直接升级到200G与400G 的.常规的波分复用系统可以被升级,是因为有源和无源被分割成两个独立的系统.无源是和速率波长无关的,所以可以自由升级.现在的数据中心CWDM4模块集成了有源和无源技术,好处是空间紧凑,坏处也是明显的,这个架构根本无法直接更换一个更高速率或更多波长(如8波,16波)的模块,意味着当系统需要升级的时候.大家过去为CWDM4而CWDM4的成本都打了水漂.因为采用PSM4同样可以实现光连接,且成本更低.按目前的直接材料成本和制成费用核算,单个CWDM4成本是PSM4的1.35-1.5倍.这些多出的成本对于现在的系统运作毫无意义. l 现有CWDM4模块对数据中心系统增加了可靠性风险.紧凑型CWDM4模快存在温飘和可靠性问题.CWDM4的规模部署需要数据中心将机房温度严格设定在估计15-50-度的范围,否则可能出现由于温飘和光芯片可靠性招致的严重误码现象.如果机房的水冷和空调系统一旦间歇性失灵.数据中心将出现灾难.CWDM4模块需要一个更可靠的工作环境带给系统巨大的能耗(PDU增大).如果仅仅因为使用CWDM4模块而必须牺牲巨大的能耗,这些能耗的损失将在一个月内使所有模块的购买成本增大一倍.就大家已经做过的验证,4*25G CWDM CHIP 业内还没有绝对的可靠性保证.任何一路的可靠性将影响到四路也就是整个模块的可靠性.CWDM4的可靠性隐患包括:CWDM 光芯片的可靠性,自由空间发射结构的可靠性或AWG 的温漂性.大家知道CWDM4技术正在进步,但是到目前为止,大家都在闭着眼睛过河 l CWDM4的光纤是否带来了光纤资源的节约和长期性升级时候的一劳永逸?没那么简单!当大家做系统设计的时候一定要考虑到在一开始,光纤资源就必须按照平行架构去布置,而不要思考光纤复用的问题,因为在此时考虑复用是没有意义的.大家根本不知道未来的技术需要多少光纤资源.把一个PSM4模块升级到PSM8和把一个CWDM4模块升级到CWDM8,理论上都需要仍掉现在的PSM4模块和CWDM4模块(很显然这个情况下仍掉的钱是不同的).把一个PSM4模块升级到PSM8确实需要动用8根光纤,但是这个升级遭遇的技术瓶颈是更简单低成本的.只要有需求,大家事实上在任何时候可以把一个PSM4模块升级到CWDM4从而有效地利用光纤资源.人们会说,如果不是现在,而是将来把100G PSM4升级到100G CWDM4,那不是白白损失了一个PSM4模块吗?大家在之前已经分析过,PSM4模快的能耗和管理成本远远为数据中心建造者赚回了不止10个CWDM4模块.并且由于PSM4模块的可靠性,拆卸下来的模块仍然可以被利用于其它新建的系统。虽然没有精确的计算,但是PSM4模块的好处是非常多的:传输的通明性,无温飘,可靠性更高,以及在某些情况下轻易地实现通道的分流监测. 大家需要再次强化一个概念,波分复用技术是空分复用技术,它和系统速率和带宽毫无关系.系统架造师如果把波分复用技术和系统从40G/100G 向200G/400G 升级的相关技术融作一体考量的时候,就必然陷阱两种不同技术思维的误区,招致错误的结论.波分复用技术的价值仅在于对现有光链路的改造以及资源非常紧张的应用(比如租用光纤资源的成本和稀缺性).它不能被视作一个初始技术.让大家进一步阐释.一个数据中心链路通常包括四种架构设计:设备架构,布线架构,扩容架构. l 设备架构:保证系统采用何种速率和吞吐率,只能基于现有的技术 l 布线架构:保证系统需要多少光纤资源,必须一次性想好道路的宽度 l 升级架构:系统从低速率(如10G/40G)向高速率(如100G/200G/400G演进的技术路径和成本 l 扩容架构:如何利用空分复用技术把现有系统提升系统的容量和密度 对于扩容架构,大家有必要做进一步的论证,如下图是两个典型数据中心波分复用光互连架构 (A) 方案是有源和无源分离的设计方案 (B) 方案类似现在100G CWDM4 数据中心的结构. 大家很容易发现,就系统升级而言,A方案仅需要更换交换路由设备,而B方案的升级将只剩下光缆可以被再度利用.所以大家倾向认为现有CWDM4数据中心因为谋求更紧凑的设备,导致了升级成本的根本上升.因为除了光缆,什么也无法留下.即便大家认为这些被留下的光缆一定可被再利用进入下一代数据中心也是值得商榷的,下一代数据中心比如400G 数据中心,如果采用FR8或LR8,这个波长是1550NM 色散位移光纤,而现在的100G CWDM4 是采用1310NM 的光缆. 数据中心作为一个蓬勃发展的新事物,有太多值得讨论的空间,本文最后的推荐结论是: 1) 多模数据中心仍然是数据中心发展的核心.不但因为成本,也因为技术的可靠性.多模数据中心可以说是为数据中心而生. 2) 在长距离数据中心发展上,PSM4技术优于CWDM4,PSM8技术优于CWDM8,以此类推.数据中心适宜定位平行技术作为主流.至少这个布局不会是一个全输的游戏.并行技术不但透明且易于做OMA管理. 3) 除非情不得已,数据中心采用NRZ技术演进是最可靠和低成本的.有时候大家要考虑,一旦数据中心被PAM4主导,它的下一步是PAM8/PAM16吗?这样的话系统将变得越来越不透明和难于管理.如果大家采用PSM4+PAM4的结构一定优于CWDM4+PAM4的结构. 4) 目前采用集成CWDM4技术做数据中心的第一次部署从一开始就把数据中心定义为过渡型而非固定型.这个理念需要修正.我认为这正是专业人士和非专业人士的分界点.从我接触光通信时候起,大家就知道CWDM属于一种增容的技术.目前的CWDM4技术界于离散和集成之间,并不成熟,而且无法扩充到8波或16波,这极大限制了CWDM系统地扩容能力,CWDM4作为数据中心第一次部署并不恰当.客观上,这种技术的第一次部署是限制了系统的可能性与灵活性,带来事与愿违的成本上升,必须十分谨慎! 结语:数据中心的平行架构和CWDM架构颇有点宇宙和哲学的意味,把这个问题讲清楚颇费脑筋.CWDM技术是平行技术的延伸,而非对抗性技术.有多少个平行宇宙就有多少种CWDM宇宙.如果平行宇宙不存在,CWDM宇宙将很快塌缩到没有发展空间.或者大家从另外一个意义上看,上帝总是宁愿相信简单.平行=简单. 深圳市易飞扬通信技术有限企业 李振东 2017-7-1
|