当高能物理遇上数字技术:华为超融合以太 络赋能科学探索

中科院高能物理研究所,是国际领先的高能物理研究基地之一,拥有一系列世界领先的大科学装置和重要实验。每时每刻,都有海量的科研数据从全国各地的试验装置生成,传输、汇聚到计算中心进行存储、管理,并由研究人员利用科学软件进行深入分析和利用。要承担如此重任,底层的 络和算力基础设施必须满足极为苛刻的要求。

为了适应未来的 络和算力需求,高能物理所与华为开展了联合创新,利用华为超融合数据中心 络CloudFabric构建起了由近十万颗CPU核及数百张GPU卡构成的跨地域的高性能计算系统,为研究工作提供了完善的ICT基础设施。

科研机构面临 络难题

由于高能物理所ICT应用系统的特殊性,在规划 络系统时面临两个难题:一是科研数据失之毫厘差之千里,数据传输必须满足零丢包、超低延时;二是 络的管理和运维需简单化和智能化,减少人工维护压力。借助华为超融合数据中心 络CloudFabric 3.0 解决方案,高能物理所升级了其底层 络通讯系统,完全实现了预定目标。

CloudEngine助力国家大科学装置数字化升级

在广东东莞,坐落着一座国家重大科技基础设施——中国散裂中子源(CSNS),这是世界四大脉冲散裂中子源之一。在2018年CSNS建成后,随着大量研究人员和课题的入驻,实验过程产生了大量的科学数据,为高效支持依托CSNS的科研活动,高能物理所在东莞部署建设了大科学计算中心。

东莞大科学计算中心在 络中全面采用了华为CloudEngine系列交换机,确保数据无损传递;在算力领域,运用华为鲲鹏计算平台和超融合以太智能无损数据中心 络形成了计算、存储、 络统一架构。由于华为CloudEngine交换机可以对数据进行一定整合后再做转发,因此能够有效减轻服务器的负担,整体运行效率比传统以太 提升31%。

实测发现,利用华为超融合以太方案替换原有计算专用 络之后,整体性能基本持平,带宽增加了一倍,建 和运维成本总体减少23%。利用超融合以太方案建设存储 络系统之后,切实做到了0丢包,同时时延缩小了40%,投资成本节省了25%。

CloudFabric赋能基础科学创新

在北京怀柔科学城,高能同步辐射光源(HEPS)正在建设当中。该装置提供了一种更加清晰、准确地观察微观世界的手段,在物理、材料、化工、生命等学科领域有非常广泛的应用。HEPS实验过程中会产生海量的数据,需要先进的高性能计算集群和存储集群来处理、保存,同时还要借助日新月异的AI技术来辅助分析数据,因此新的 络和算力基础设施也必须有能力支撑大规模AI运算。为此高能物理所与华为合作,探索利用华为超融合数据中心 络CloudFabric方案来建设 络体系和计算集群。

目前的规划是利用CloudEngine系列数据中心交换机来构建分布式 络,后续将结合华为AI集群方案推进人工智能开放平台建设,并探索适合高能物理研究发展方向的新兴高性能 络和计算架构。

自从华为数据中心 络CloudFabric解决方案上市以来,已经在多个行业的21000多个数据中心投入了应用。中科院高能物理所与华为的多次合作,让CloudFabric得以在全球顶尖科研机构中大显身手,也为中国基础科学研究的数字化、智能化升级探索出了一条前进之路。高能物理所计算中心主任齐法制表示,中科院高能物理所计算中心期待能和华为一道,在高性能计算领域取得更多的成果。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年11月13日
下一篇 2022年11月13日

相关推荐