宁德生活圈

网站首页 科技 > 正文

经过多年的突破性科学探索 阿公的米超级计算机即将退役

2021-09-21 13:39:57 科技 来源:
导读 Mira是一台10 PB触发的IBM Blue Gene Q超级计算机,于2012年在美国能源部(DOE)阿贡国家实验室首次启动,将于今年年底退役。当一个珍

Mira是一台10 PB触发的IBM Blue Gene/Q超级计算机,于2012年在美国能源部(DOE)阿贡国家实验室首次启动,将于今年年底退役。

当一个珍贵而受人尊敬的同事即将退休时,同事们会对自己的辛勤工作和通过努力取得的成就表现出自己的情感。事实证明,已经达到使用寿命极限的超级计算机也是如此。

Mira是一台10 PB触发的IBM Blue Gene/Q超级计算机,于2012年在美国能源部(DOE)阿贡国家实验室首次启动,将于今年年底退役。它的工作跨越了7年多,已经交付了39年。60亿个核心小时,涉及800多个项目,解决了从药理学到天体物理学等科学领域几乎难以解决的问题。

“米拉肯定会被错过,”阿尔贡领导计算设施(主任迈克尔帕普卡说ALCF),该设施是为米拉所在的美国能源部科学办公室的用户提供的。“多年来,服务一直是我们的主力军。米拉是一名员工,她热爱ALCF用户社区,热爱我们处理重大科学问题的能力及其卓越的可靠性。”

领导者级别的超级计算机是Argonne在IBM Blue Gene架构系列中的第三个也是最后一个系统,它是从Lab 5的部署开始的。2005年,推出了7台teraflop Blue Gene/L机器。其次是2008年至2013年服务于科学计算界的IBM Blue Gene/P系统,557兆位触发。当Mira在2012年推出时,它只有20岁,是勇猛号的三倍,因此它为研究人员提供了一个工具,使人们能够以前所未有的规模进行模拟,并创建更精确的模型,从内燃机到血流。

Milla仍然可以用在开放科学中最强大的系统中,最近坐在世界上最快的超级计算机500强的名单上。Mira刚发布时,被列为第三快的系统,并被列入“绿色500强”名单,这是公认的世界上最节能的超级计算机。它也是Graph 500列表中的第三个系统,这种方法侧重于超级计算机处理数据密集型应用程序的能力。

使米拉如此高效节能的必要进步之一包括用装满水的管道直接冷却机器,而不是向芯片吹气。“水冷让你有机会比空气冷却更快地从芯片中带走大量热量,”苏珊科格兰说,她是ALCF的项目主管,领导了米莱在阿贡的开发和部署。

为了让米拉解决最具挑战性的问题,其设计师需要重新考虑超级计算机的外观。过去,超级计算机是用越来越强大的处理器建造的,但最终工程师们限制了每个核心能容纳多少晶体管。答案以IBM Blue Gene架构的形式出现,最终产生了Mira,并在单个节点上安装了16个内核。

Coghlan表示:“Mira是Blue Gene多核架构产品线的巅峰之作,提供了前所未有的强大功能和可靠性。

米拉的近50,000个节点中的每一个都像一个神经细胞,通过光纤电缆以光速将信息传输到机器的其他部分。以最佳配置组织这些连接,以减少计算机不同部分交换信息所需的时间,这是设计超级计算机的基本挑战。

ALCF的技术总监格利扬库马尔库马兰说:“米拉在解决这些复杂的科学挑战方面如此有效的原因是机器如何在它们的节点上进行有效通信的一个重要部分。”。“即使在不同的模拟中,同时在系统的不同部分运行,Milla也可以通过隔离每个作业的流量来消除通信干扰。”

米拉的光纤网络几何被称为互联,它可以像州际高速公路系统一样从每个节点路由信号。互连的复杂性是由额外维度的引入引起的,这将减少信号需要覆盖的总空间。早期版本的蓝色基因架构有更简单的互连,但米拉确实是一项成就。根据ALCF科学总监凯瑟琳莱利的说法,目前还没有现成的技术可以取代米拉的互联并具有竞争力。

从某种意义上说,Mira互联的独特拓扑结构将使其很难被未来提供大量纯计算能力的系统所取代。莱利说:“七年后,大多数时候,人们已经完全准备好进入下一个平台,因为它将做各种各样的问题,科学家们想解决这些问题,以便更加有效。“但坦率地说,Milla的情况并非如此——它是一个令人难以置信的强大和竞争的系统,即使它在计算上没有那么大,但它的效果是如此之好,以至于它会被积极使用到最后一刻。”

米拉的另一个值得注意的方面是,研究人员的数量和种类是多种多样的,他们可以通过使用需要使用其所有节点的大规模模拟来利用系统的全部计算能力。在米拉的整个生命周期中,ALCF用户已经在米拉上运行了整机700多次,研究范围已经从宇宙中得知。

材料科学。

“许多超级计算机通常在一生中就只运行一次完整的机器运行,以后再也不会运行,但是我们的用户经常在Mira上运行它们,” ALCF的运营总监Mark Fahey说 。“那米拉能够处理定期这些全机工作的事实证明了其卓越的可靠性。在其他大型系统上,通常在全机运行期间少数处理器出现故障或宕机,这可能会阻止用户首先尝试使用它们。”

当米拉被退役,阿贡国家实验室的现任领导级的超级计算机,西塔,将作为该实验室的主要系统为开放式科学到即将推出的百亿亿次机,极光,在到达 2021。

尽管ALCF 用户和员工都会错过Mira ,但即使关闭电源,该系统仍将对科学产生持久影响。从大规模的实验设施研究和宇宙学调查到加速新材料和候选药物的发现,Mira开展了许多突破性的研究,这些研究将科学的界限推向了各个学科。

一台机器“一在十亿次”模拟

七年来,Mira被用于处理从微小到宇宙的科学问题。瑞士大型强子对撞机(LHC)的科学家们花费了数年的时间从​​他们的实验中生成许多PB的粒子碰撞数据,而回到Argonne的研究人员一直在Mira上进行模拟,以测试亚原子宇宙的不同模型如何符合观测结果。

“以前,我们有很多努力在像Mira这样的超级计算机上运行代码之前就遇到了很多麻烦,其中包括检测模拟中非常罕见的事件,”曾担任ATLAS 实验物理协调员的Argonne高能物理学家Tom LeCompte说。 在 LHC。“在模拟中,非同寻常的事件迅速类似普通的事件,所以你必须通过很多很多看似平常的事件排序找到他们。”

网格计算(用于高能物理应用的超级计算的前身)的挣扎在于,它一次只能容纳这么多的碰撞,因此某些模型提出的模拟事件无法记录,而实际上却不存在。

LeCompte说:“有了Mira,看到正在发生的事情就变得容易多了-您会发现自己并没有真正遇到过失败,看到这些十亿分之一的事件实在是罕见得多。” “如果你正在寻找一个‘黑天鹅’,你不得不看更多的白天鹅与黑天鹅出现前的能力。”

然后,将模拟中的这些黑天鹅事件用于验证或无效由理论和实验产生的数据。Mira使粒子物理学家能够快速运行整个模型,以确定它们如何无法真正描绘出现实。

大型强子 对撞机 每年大约发表 150篇论文 ,其中一半用于寻找新的物理学。“作为实验者,我们可以做的是使用在米拉产生地说,这些事件“这一理论可能是正确的,这个其他的理论是不正确的,这第三个理论是正确的一组特定的参数,” LeCompte说。“我们真的可以测试数据和理论的协议,因为我们了解的背景比以前我们开始寻找米拉好得多。”

尽管迄今为止还没有任何模型能够完全代表实验中看到的所有物理学,但Mira仍在帮助科学家发展更好的理论。“虽然这本来是很好的挑选赢家马上蝙蝠,米拉使我们能够改进我们的假设,我们的模型,以更接近一个更准确的解决方案,”勒孔特说。“我们既产生更高的冲突数量和较高质量的碰撞比我们以前都做过。”

Mira的其他直接优势之一在于,可以很容易地将最初为网格计算应用程序编写的代码修改为可在超级计算机上工作。“这是真的,我们怎么能做出这样的运行,以做最好的科学,我们不是可以使代码运行在所有的问题较多,”勒孔特说。

从某种意义上说,Mira使具有特定领域专业知识的科学家能够按照他们熟悉的方式解决计算问题,而不必仅仅为了启动和运行而解决大量其他计算机科学难题。“我是一个物理学家,而不是计算机科学家,米拉是第一个机器,通常是可供选择,让我想想就像一个物理学家的问题,”勒孔特说。

随着Mira使用寿命的结束,LeCompte反映出该机器已成功解决了其设计所面临的所有挑战。“大部分可以与需要解决的问题 10 -petaflop计算机已经解决,”他说。“现在是时候让那些需要的问题, 1000 -petaflop电脑。”

这些问题将涉及大型强子对撞机的大量附加数据 (可能多达10 到 20倍) ,据LeCompte称,这将为新科学打开更多机会。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

免责声明: 本文由用户上传,如有侵权请联系删除!


标签: