COOL机一台-SGI 应用Flotherm进行超级计算机的热设计

日期:2006-02-20

 

对SGI公司而言,设计高性能的超级计算机并非难事,关键在于如何解决散热问题。下面将详细介绍他们的对策。
当我们把256颗Intel Itanium 2型处理器集群到一起,就会得到世界上最快的超级计算机。但这种集群结构也对现有散热技术提出了挑战。
这就是Silicon Graphics(SGI)的工程师们在设计SGI Altix 3700Bx2 型超级计算机(该款计算机已于2004年问世)时遇到的麻烦。他们解决该类型计算机散热问题的方法是:采用便于空气流通的平行布局,新的风扇和散热片设计。在开发这些技术的同时,工程师们也提出了将用户计算机所在房间中热量排散出去的新技术。
SGI公司设计Bx2型计算机的目的就是大幅度提高现有的3700型计算机的性能,该款计算机于一年前投放市场,其运行速度很快,但它的电源密度还远不及同类产品。而且该型计算机每个机架上最多只能容纳32个处理器,这也削减了市场竞争力。通过使用共享内存技术以及SGI的新型NUMAlink 4 Router ASIC技术——一种控制数据在不同处理器间流动的集成电路板,新的Bx2型计算机中每个机架可以容纳64个处理器。ASIC可以使得计算机的性能提高一倍,而共享内存设计则使得每个处理器都可以直接访问系统内存中的所有数据。SGI的有关人士称,为普通超级计算机所设计的集群是输入/输出(I/O)以及网络传输过程中瓶颈。它会减慢数据传输的速度,或者造成数据丢失。工程设计组的负责人Steve Dean称,“我们的目标是使客户可以实现前所未有的更复杂的计算机仿真。”目前,他们的想法的确可以实现。在Bx2的性能测试中,Boeing公司的工程师们发现他们可以一次就模拟整架飞机的结构而不象以前那样只能模拟一个机翼。NASA使用ANSYS的软件可以在该机器上实现对具有11700万个自由度运动的模拟。而SGI的工程师们相信,这些还仅仅是个开始,SGI内部测试表明,Bx2型计算机至少比市面上的其它计算机快200倍以上。




SGI的测试结果显示,新型Altix 3700 Bx2 超级计算机的运行速度比它的竞争对手快至少200倍以上

散热的问题
正如飞机在以马赫级速度飞行时那样,Bx2在运行过程中也会产生大量的热量。每个28×17.5×7英寸的“单元块”(这是SGI用来计量电子器件的最小单位)上就要排出相当于1000W的热量,这些热量相当于同时点燃十盏100W的灯泡所散发出的热量,而系统中每个机架上都有八个这样的“单元块”。如果不进行冷却的话,系统的温度将在几分钟内达到几百摄氏度,那整个机器就成了一台昂贵的烤炉了。
有很多办法都能将芯片上的热量散发出去。最常用的方法就是水冷、气冷以及热辐射。热辐射的办法在太空项目中使用的最多,水冷虽然效率很高,却不易安装,而且非常昂贵。因此,SGI的工程师们选择气冷进行散热,因为这不仅廉价有效而且可以满足该机器的散热要求。


搭起Altix 3700 Bx2型超级计算机的砖块是一个一个尺寸为28×17.5×7英寸的“单元块”,里面封装有各种电子元件。每个这样的“单元块”工作时,将产生相当于1000W的能量。这相当于10个100W灯炮在相同空间内产生的能量。如果不经过冷却的话,整个系统的温度将在几分钟内的达到几百摄氏度。Altix系统可容纳多达8个这样的“单元块”。
保持空气流通
第一步就是要让系统内的空气流动所受阻力减到最小。机箱中的部件如果排列不当的话,会使得热量在机箱中不断聚集,因此他们使用平行布局的办法来解决这个问题。机架中的所有组件,包括处理器,内存,路由器都平行插放。由于空气顺着插放器件的两侧流过,几乎不受任何阻力。SGI以前就曾经采用过平行布局的设计,因此这对他们而言是驾轻就熟的事情。
解决了空气流动阻力的问题,接下来就该考虑如何使空气在“单元块”间流动了。SGI测试了几种不同的风扇,最终他们选择了由德国风扇制造商ebm Papst生产的风扇,用于Altix3700 Bx2计算机的散热系统。在SGI用pro/ENGINEER模拟的超级计算机模型中,ebm为所有“单元块”提供三个127mm的高性能风扇进行冷却。在风扇工作时,空气由风扇的页片吹出,气流方向与电机轴平行。与其他相同尺寸的风扇相比,ebm公司的风扇有更高的空气流动速度和更低的噪音。


工程师们使用计算流体力学(CFD)模拟计算机组件上面的空气流动。该图演示了空气是如何从风扇中排出的。工程师们希望知道空气流是否在PCB板的顶部和底部均匀分布,以及是否存在空气流动不畅的死角或区域。他们的目标是让空气在机箱内畅通无阻。
有了合适的风扇,接下来就该进行散热片的设计了。这是SGI工程师Rick Salmonson的工作。根据对散热槽的初步设想,他使用设计软件Pro/ENGINEER构建了CAD模型,并在此基础上,为散热片设计建立计算流体力学(computational fluid dynamics CFD)的仿真模型,通过对该仿真模型反复试验、对比,得到优化的散热片高度和排列的设计。
这种设计说起来容易做起来难。安装在处理器表面的散热片,通过其上的叶片散热,其基本的热力学方程为Q=hA(Tb-Ta)n,其中Q是热传导率,h为热传导系数,A是散热片的面积,Tb是散热片的温度,Ta是周围空气的温度,n为散热系数。利用该方程式,工程师们可以预测散热片的散热效果。在试验过程中,Salmonson首先必须在使用一套散热装置还是两套散热装置之间做出选择。一个Intel处理器能产生130W的能量,而一块ASCI则能产生30W。如果为了节约成本,SGI可以在这两种器件上使用同样的散热装置。但这并不是最有效的解决办法。为ASIC设计的散热片用在处理器上则散热的效率太低,而为处理器设计的散热片用在ASIC上却又过于浪费。若采用折衷设计却又太耗时间,而且存在风险。因此Salmonson决定为这两种芯片设计不同的散热片。他选择铜作为处理器散热片的基座和叶片。基座尺寸为91×71×6mm,上面装有23片高49mm,厚为0.4mm的散热叶片,片间距为2.8mm。ASCI使用的的散热装置为铝材,基座尺寸为73×58×6.5mm,装有20片高41mm厚1.0mm的散热叶片,散热片间距2.9mm。
热量从芯片的背面传导出去,处理器的温度能降低40℃,而ASCI的温度可以降低25℃。


上图是工程师们在研究了CPU,ASIC芯片,路由器芯片,以及内存DIMM和能量转换组件的表面温度之后的总结。由于散热片不是研究对象,它们在这个视图内被隐藏起来。同时该视图还给出了块状组件的剖面图,事实上,通过仿真模型可以得到任何部位的局部视图,并且可对其进行任意角度旋转,这样他们就可以对组件每个部位的空气流动以及散热情况进行观察。图中蓝色区域是空气流动的阻断区,用来确定空气在散热片的表面流过而不是在各个散热片间循环。
为计算机房降温
平行布局技术,风扇选择,还有散热装置的设计解决了计算机内部组件散热的问题。但是SGI的工程师们明白,热量从计算机内排出后,用户则必须想办法把这些热量从计算机房内排出。工程设计组的负责人Dean说,“直觉告诉我们,用户们在解决这个问题时遇到了很大的麻烦。”他们的直觉后来被证实是正确的。当NASA订购了几套Bx2系统后,SGI的设计组通过计算发现,该系统产生的热量已经超出了NASA室温调节系统的调控能力。
Tim McCann和Dave Collins为这一计算机设计了水冷式的机架门。这种机架门可以将计算机产生的热量带入到房间的水冷系统中去。在计算机运行的时候,热量将从芯片的背面传出,然后被机架背面的水冷管内的冷水吸收,最后释放到房间的水冷系统中去。
他们在设计中使用到的热交换管道类似于供热通风与空调工程(HVAC)中的大功率空调使用的管道。通过与管道设计公司ThermoDyne公司以及管道生产厂商Outokumpu Heatcarft公司的紧密合作,McCann和Collins在六个星期内提出了几种不同的管道设计方案。他们的目标是要使用这套系统吸收计算机产生的90%以上的热量。


但找到合适的管道设计方案并不意味着万事大吉了。Collins说,“将热的空气吹到冷的管道表面的时候有可能会产生水汽的凝结,这种情况会影响房间内的湿度平衡导致静电释放等问题。”怎么办?他们重新制定了管道的设计指标:管内冷却水的温度可达60F,同时工作环境中的湿度要保持在40~55%RH,这样的话就可以避免凝结发生。尽管如此,他们还是在机架门中保留了排水系统的设计,确保在环境条件不达标的情况下,机器也能安全运转。
水冷机架门已经为NASA节约了不少开支,可NASA的设备工程师还想利用这套系统增大建筑内空调系统的工作能力。McCann和Collins否决了这项提议。因为这样的话,为了提高管道的散热能力,就必须降低冷却水的温度,这样会加大水汽凝结的风险。


NASA具有10240颗处理器的Columbia超级计算机由20架Altix系统构成,每架Altix拥有512颗Intel Itanium 2处理器。该超级计算机位于Mountain View CA的NASA的高级计算实验室中,是世界上最大的基于Linux操作系统的超级计算机。
当使用Bx2型超级计算机的工程师从它超强的计算和模拟能力中获益时,SGI的工程师也从中获益匪浅。工程设计组的负责人Dean说,“我们由此意识到了注重整个工程,而不是仅仅局限于自己的产品的重要性,我们完全可以将机房的冷却问题留给NASA或者其他用户自己解决,即使那样我们的产品也同样具有竞争力。很多客户并不了解高能量密度的设备所产生的热量会大大超过机房空调系统的承受能力,我们为他们解决这个麻烦,我们的超级计算机也会因此变得更值得信赖。”


SGI的工程师们在机架门上采用水冷技术,解决超级计算机的散热问题
网络资源:
//查看下面的链接可得到更多信息//
■ SGI的计算技术:
http://www.rbi.ims.ca/4386-566
■ PTC的立体建模软件:
http://www.rbi.im
■ emb Papst 的风扇:
http://www.rbi.ims.ca/4386-568
■ Outokumpu的冷却管:
http://www.rbi.ims.ca/4386-569
■ Flomerics的CFD软件:
http://www.rbi.ims.ca/4386-570
■ 极度冷却:http://www.rbi.ims.ca/4386-560
■ 用黄金冷却的汽车:
http://www.rbi.ims.ca/4386-561
■ 导热塑料解决散热问题:
http://www.rbi.ims.ca/4386-562
■ 计算的需求推动电脑设计的发展:
http://www.rbi.ims.ca/4386-563
 

 

上海网站建设