国产工业软件背后的算力“战争”

当工业软件化身别国手中的制裁大棒时,国产工业软件亟需打响一场“突围战”。

在传统工业领域,大量的研发制造经验通常存在资深人员的脑袋里,通过“老师傅带徒弟”的方式来进行传承。而工业软件的价值,则体现在把这些珍贵的经验转变成数据和算法,然后固化在软件中。

曾经,工业软件是如同“扫地僧”般的存在。一方面,“他”非常低调,普罗大众几乎不会对其给予特别的关注;另一方面,“他”实力强大,以人类基础学科和工程知识集大成者的身份撑起了整个工业体系。

然而,近年来接连不断的国际制裁,却让国产工业软件暴露于聚光灯下,站上了风口浪尖。CAD、CAE和EDA是工业软件赛道中最难翻越的三座大山,当前,国产产品在其中的表现可谓不容乐观。

数据最能说明现状的严峻性:EDA软件是芯片研发过程中不可或缺的关键设计工具,被业内称为“芯片之母”,而美国Synopsys、美国Cadence和德国Siemens EDA三巨头却占据了国内将近90%的市场,相比之下国产EDA厂商的份额只有可怜的11.5%。

研发设计类软件CAD的情况甚至更加糟糕,综合多家研究机构的数据——法国达索、德国西门子、美国PTC以及美国Autodesk在我国市场占有率高达90%以上,国内数码大方、中望软件、山大华天等只占不到10%的市场。和CAD关系紧密的仿真CAE软件几乎面临着相同的局面,全球CAE市场基本被德国西门子、美国Ansys和法国达索前三大供应商所主导,中国CAE市场国产化率不足5%。

当工业软件化身别国手中的制裁大棒时,国产工业软件亟需打响一场“突围战”。在突围的背后,除了扎实的基础学科知识积累、市场用户的验证、软件本身产品力比拼外,还有不可忽视的隐藏致胜要素——算力。

CAE和HPC是一对“天作之合”

任何一件工业产品在推向市场之前都必须经过反复验证,在工程领域,工程师的产品试验如同是“戴着镣铐跳舞”。一副“镣铐”是物理试验条件,为了满足很多工业产品严苛的工况,相关生产样件往往需要环境配合进行高低温试验,比如等到冬天才能前往漠河开始试验,准备时间长、约束条件多;还有一些试验,诸如发动机燃烧室内的汽油喷射和燃烧,物理试验条件根本无法模拟。另一副“镣铐”是成本,为了验证新车的安全性,碰撞测试必不可少,但不可能测试一次就付出报废一辆车的代价。

仿真软件CAE通过将物理试验搬到虚拟世界中,让这些问题迎刃而解,变相地带来了品质的提升。尤其是在产品快速迭代的当下,CAE的价值得到进一步的凸显。

回想一下,大学时我们求解高阶多变量的方程式就已经很困难了,而想要用CAE模拟更多、更复杂的物理过程,想要在虚拟世界里研究飞机的飞行,汽车的碰撞,想要扩展到多物理场乃至实现“数字孪生”,其计算量可想而知。以“制造皇冠上的明珠”——航天发动机为例,其研发过程涉及动力学、传热学、材料力学、理论力学、流体力学、断裂力学、弹性力学、机械动力学等诸多学科,是牛顿力学时代所有力学的集大成,是所有科技成果的结晶。为了保障产品质量,工程师需要验证各个部件在高温、高压、高转速复杂环境下的工况,搞清楚部件相互之间如何影响,还同时要满足高性能、长寿命、高可靠、轻重量、安全性、经济性和日益苛刻的环保性等多维约束条件。如果每一个要素都要求解N个方程,CAE背后需要的计算量简直难以想象,强大的超算几乎是必不可少的武器。

说到计算,不知道大家是否记得当年“两弹元勋”邓稼先先生研制第一颗原子弹的故事。1959年,苏联停止对华技术援助,撤回所有专家。离开前,有三位苏联核专家在课堂上留下了一个关于内爆过程中产生压力的技术指标。但是,在研究人员历经二十天的计算之后,这个参数出现了偏差,计算工作因此陷入僵局。为了获得准确的结果,邓稼先带领研究人员用手摇计算机、计算尺乃至算盘反复计算,最后从理论上证明苏联数据是有问题的。正确的参数给原子弹理论设计奠定了坚实基础,1964年10月16日,我国第一颗原子弹爆炸成功。

国家博物馆馆藏 邓稼先领导研制中国第一颗原子弹时使用的手摇计算机

如今,邓稼先用过的那台手摇计算机正安静躺在中国国家博物馆的展台上,时代变迁,站在前人栽种的大树下,现代科学家和工程师们拥有了无与伦比的计算资源和条件,HPC(高性能计算)带来的算力资源为CAE等工业软件提供了源源不断的算力,让CAE求解不仅能够算得快,海量算力让更高精度的计算可以在可接受的时间内完成,也让CAE算得更准。

由于各种专业的仿真软件都需要运行在大量的算力资源上才能完成,CAE天生的求解计算从诞生之初就和HPC紧密结合。

CAE仿真过程的算力之痛

应用CAE软件对工程或产品进行性能分析和模拟时,一般要经历三道流程:前处理-求解-后处理。这个过程中,算力本应该是支撑其计算的加速器,但如果算力资源的使用、分配和调度存在问题,那么反而可能成为限制研发效率的桎梏。

在汽车行业,近年来车厂的概念车层出不穷,一款款新车的成功上市,意味着背后的高效研发。而汽车本身又是一种极其复杂的产品,研发过程需要安全碰撞仿真、NVH噪声仿真、CFD仿真等……当前汽车CAE分析项种类最高多达600余种。

大多数汽车制造企业的CAE部门通常采用工作站模式进行单机计算,这个过程存在很多问题和挑战:

首先,汽车CAE仿真业务流程因文件拷贝存在“断点”,工程师用个人工作站进行前后处理,计算前要上传文件到HPC,计算后要下载结果到个人工作站,加之往往研发中心和数据中心分隔两地通过内网互联,带宽有限,工程师上传和下载数据的等待时间并不增值,是妥妥的浪费;第二,对整车级别大型CAE模型、高精度渲染等场景,个人工作站有时性能不足,共享高性能工作站既不方便,也难以维护,还带来数据无意泄露的风险;第三,车企在建设计算集群时,硬件选型过程中,因为没有建立专门的实验室、也不具备采购各类设备进行benchmark的能力,可用来测试的硬件设备非常有限,不同软件的计算模型不同,对计算资源的性能要求也不一样,如何从可获得的各类硬件中选择出最适合目标应用、最佳性价比的算力组合,一直是一个挑战;最后,项目研发过程中资源需求必然存在波峰波谷,单项目周期超过60%的时间资源不足,资源按部门分配,共享难度大,作业等待时间长,而车型数据冻结后,CAE需求锐减,资源闲置,企业也希望能进一步平抑波动提高对算力资源的利用率,从而降低HPC的拥有成本。

某中国高端品牌车型的代表性企业之一,就在高速发展过程中遭遇了这些挑战。由于组织结构和管理体系的问题,其线下HPC资源均是购买2~3年以上的V3和V4主机,设备性能不满足业务增长要求;PamCrash碰撞计算需要用时超过30小时以上,研发部门工作效率很低。面对市场的压力和激烈的竞争,该企业也在积极求变,并选择华为HPC来帮助其消除这些烦恼。

具体而言,该企业采用华为RH2288高性能服务器,通过100G IB网络连接。HPC资源建设在华为云广州资源池上,从佛山分厂通过专线接入,高速访问HPC物理机集群, 同时通过华为公有云平台组件提供网络安全防护服务。在公有云中批量部署弹性云服务器,作为调度任务的计算节点,计算任务从云下调度到云上执行,计算结果自动回传到线下的NFS服务器。在这套完整解决方案的助力下,该企业取得的受益也非常显著:其研发碰撞测试时间由原来线下30小时提高到线上18小时完成,效率提升40%。

从中我们可以看出,华为HPC方案的本质是将其30余年积累的ICT技术和数字化实践,以云的方式开放分享给企业客户,为企业构建稳定可靠、安全可信、可持续发展的新一代ICT基础设施,这带给客户的优势显而易见。

客户可以基于极致性能的产品获得业务增长所需的算力。例如,华为TaiShan 200 Pro2480高性能服务器基于鲲鹏920处理器,最高能够提供256核、3.0GHz主频的计算能力和最多25个SSD硬盘,适合为企业关键业务提供澎湃的高可靠算力。而这些算力如同从水龙头里取水一样方便——既免去了高昂的建设、管理成本,又能避免算力资源在项目的各个阶段以及各部门之间分配不合理的情况,让算力资源充分适配不同业务场景对高性能计算的需求。从长期来看,这将帮助企业带来效率的增长和OPEX的降低。

CAE“算力”国产化敲响警钟

正因为算力如此重要,所以限制算力也能成为扼制的手段。

数据显示,2021年所有国内服务器操作系统装机量中,Linux市场占有率达到79.1%,CentOS是Linux生态下的优秀开发版本之一。据媒体报道,2021年12月31日,CentOS Linux 8 停止维护,CentOS Linux 7于2020年第四季度停止更新,并将于2024年6月30日停止维护,这意味着使用广泛的CentOS服务器系统即将停服。CentOS作为免费的、开源的、可以重新分发的开源操作系统,在国内服务器操作系统的占有率非常高,涉及到各个行业。对于用户来讲,CentOS停服后将无法得到官方的系统升级和补丁安装支持,一旦发现新的安全漏洞并被黑客利用,将带来宕机、服务中断、数据泄露等风险,网络信息安全风险陡增。

不只是软件和操作系统,硬件方面的乌云也久久不散。2020年4月,英伟达官方宣布正式完成对Mellanox 70亿美元的收购。Mellanox是一家以色列芯片厂商,数十年来一直在InfiniBand和以太网互联产品的研发领域深耕。2010年底,Mellanox曾收购著名Infiniband交换机厂商Voltaire,这一收购成就了其在高性能计算、云计算、数据中心、企业计算、存储市场上的全面业务能力。众所周知,今年9月,英伟达和AMD将对中国进行高算力GPU断供的消息刷屏各大科技媒体,虽然初期断供范围只是高端芯片,未来涉及的范围难以预估。

市场上主流的CAE软件中,欧美商业软件居多,这些软件都已适配x86硬件架构,但是对于新崛起的ARM架构来说,至少还需要重新编译才能使用。然而,编译和性能优化是需要源代码的,让这些欧美软件开放源码,似乎是不可能的事情。

这些事件为工业软件“算力”国产化敲响警钟,未来工业软件之战的背后还有暗潮汹涌的算力战争。从这个角度来说,产业呼唤国产自主的HPC产品。而华为HPC基于华为自主研制的算、存、管、网、智5类芯片,具备硬件层的自主可控能力;支持国内唯一自主演进的openEuler操作系统,从系统层面支持自主可控,免去卡脖子风险。垂直的全栈技术能力,才是算力和软件持续演进的坚实保障。

基于全栈的优势,华为100G AI Fabiric RoCE交换机针对高性能并行计算场景下常用的MPI协议进行适配,通过在网计算、AI动态水线等黑科技,将IP网络做到和IB网络差不多的性能,微秒级时延,满负载下0丢包,成为平替Infiniband的选择。其自研的多瑙调度系统也凭借0信任和支持多集群混合调度等特性赢得客户青睐,从国外IBM Spectrum LSF以及Altair PBS Pro的包围中赢得了属于自己的份额,成为国产调度系统的新秀。

写在最后

《外交评论》杂志的一文中提及:当前,国家间地缘经济竞争模式随着生产方式的变革而变化,数据、硬件与算法已成为数字时代最核心的生产资源,构成了国家的数字资源。

数字化的底层竞争是计算,计算的最终形态是智能。不仅限于前文提及的工业软件,泛在计算都可以用HPC提供算力——诸如图形渲染、AI训练、大数据计算等场景,只要能用“命令行”启动的任务,都可以跑在调度系统上面,分时复用集群计算资源。

未来在数字经济时代占据高地,国人必须从底层构建自己的计算平台,因为中国的钢铁长城决不能建立在它国的沙子堆之上。自主创新是一条漫长但必须坚持的路,前路依然任重道远,依然荆棘丛丛,但我们已经启程。

作者:Sophia,观点代表个人。本站不对内容的真实性及完整性作任何承诺。

Like (3)
Previous 2022年12月2日 13:05
Next 2022年12月3日 08:24