对SGI公司而言,设计高性能的超级计算机并非难事,关键在于如何解决散热问题。下面将详细介绍他们的对策。
当我们把256颗Intel Itanium 2型处理器集群到一起,就会得到世界上最快的超级计算机。但这种集群结构也对现有散热技术提出了挑战。
这就是Silicon Graphics(SGI)的工程师们在设计SGI Altix 3700Bx2 型超级计算机(该款计算机已于2004年问世)时遇到的麻烦。他们解决该类型计算机散热问题的方法是:采用便于空气流通的平行布局,新的风扇和散热片设计。在开发这些技术的同时,工程师们也提出了将用户计算机所在房间中热量排散出去的新技术。
SGI公司设计Bx2型计算机的目的就是大幅度提高现有的3700型计算机的性能,该款计算机于一年前投放市场,其运行速度很快,但它的电源密度还远不及同类产品。而且该型计算机每个机架上最多只能容纳32个处理器,这也削减了市场竞争力。通过使用共享内存技术以及SGI的新型NUMAlink 4 Router ASIC技术——一种控制数据在不同处理器间
流动的集成电路板,新的Bx2型计算机中每个机架可以容纳64个处理器。ASIC可以使得计算机的性能提高一倍,而共享内存设计则使得每个处理器都可以直接访问系统内存中的所有数据。SGI的有关人士称,为普通超级计算机所设计的集群是输入/输出(I/O)以及网络传输过程中瓶颈。它会减慢数据传输的速度,或者造成数据丢失。工程设计组的负责人Steve Dean称,“我们的目标是使客户可以实现前所未有的更复杂的计算机仿真。”目前,他们的想法的确可以实现。在Bx2的性能测试中,Boeing公司的工程师们发现他们可以一次就模拟整架飞机的结构而不象以前那样只能模拟一个机翼。NASA使用ANSYS的软件可以在该机器上实现对具有11,700万个自由度运动的模拟。而SGI的工程师们相信,这些还仅仅是个开始,SGI内部测试表明,Bx2型计算机至少比市面上的其它计算机快200倍以上。

SGI的测试结果显示,新型Altix 3700 Bx2 超级计算机的运行速度比它的竞争对手快至少200倍以上
散热的问题
正如飞机在以马赫级速度飞行时那样,Bx2在运行过程中也会产生大量的热量。每个28×17.5×7英寸的“单元块”(这是SGI用来计量电子器件的最小单位)上就要排出相当于1,000W的热量,这些热量相当于同时点燃十盏100W的灯泡所散发出的热量,而系统中每个机架上都有八个这样的“单元块”。如果不进行冷却的话,系统的温度将在几分钟内达到几百摄氏度,那整个机器就成了一台昂贵的烤炉了。
有很多办法都能将芯片上的热量散发出去。最常用的方法就是水冷、气冷以及热辐射。热辐射的办法在太空项目中使用的最多,水冷虽然效率很高,却不易安装,而且非常昂贵。因此,SGI的工程师们选择气冷进行散热,因为这不仅廉价有效而且可以满足该机器的散热要求。

搭起Altix 3700 Bx2型超级计算机的砖块是一个一个尺寸为28×17.5×7英寸的“单元块”,里面封装有各种电子元件。每个这样的“单元块”工作时,将产生相当于1,000W的能量。这相当于10个100W灯炮在相同空间内产生的能量。如果不经过冷却的话,整个系统的温度将在几分钟内的达到几百摄氏度。Altix系统可容纳多达8个这样的“单元块”。
保持空气流通
第一步就是要让系统内的空气流动所受阻力减到最小。机箱中的部件如果排列不当的话,会使得热量在机箱中不断聚集,因此他们使用平行布局的办法来解决这个问题。机架中的所有组件,包括处理器,内存,路由器都平行插放。由于空气顺着插放器件的两侧流过,几乎不受任何阻力。SGI以前就曾经采用过平行布局的设计,因此这对他们而言是驾轻就熟的事情。
解决了空气流动阻力的问题,接下来就该考虑如何使空气在“单元块”间流动了。SGI测试了几种不同的风扇,最终他们选择了由德国风扇制造商ebm Papst生产的风扇,用于Altix3700 Bx2计算机的散热系统。在SGI用pro/ENGINEER模拟的超级计算机模型中,ebm为所有“单元块”提供三个127mm的高性能风扇进行冷却。在风扇工作时,空气由风扇的页片吹出,气流方向与电机轴平行。与其他相同尺寸的风扇相比,ebm公司的风扇有更高的空气流动速度和更低的噪音。

工程师们使用计算流体力学(CFD)模拟计算机组件上面的空气流动。该图演示了空气是如何从风扇