郑纬民院士:大模型训练完全可以用国产超算来支撑

发布日期:2024-03-08 05:47    点击次数:194

  近日,中国工程院院士郑纬民在2023世界5G大会上表示,国产超算完全可以支持大模型训练。

  郑纬民介绍道,目前支持大模型训练的主要有三种算力系统,一是基于英伟达公司的GPU系统,二是基于国产AI芯片的系统,三是基于超级计算机的系统。英伟达GPU系统的优点是硬件性能好,生态也比较完善,但中美博弈加上产品价格高,给国产AI芯片带来了难得的发展机遇,目前国内已经有30多家公司推出了国产芯片,“但用户不太喜欢用,核心问题就是生态不好。”

  而不依赖国外芯片技术改变国产大模型生态系统发展局面,编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统这十大关键软件技术值得重点投入。

  “如果国产AI芯片硬件性能达到国外芯片的60%,大多数用户也是可以满意的,因为硬件再好这十个软件做不好,也没有市场。”郑纬民说道,一定要把这十个软件做好,改变国产系统的生态。“如果把这些问题解决好,国产AI卡也会大受欢迎。希望国内广大用户尽可能采用国产AI芯片,以用促建,以用促研,不断的给予正向反馈。”

  目前,我国超算水平已经处于国际第一梯队,有14个国家一级超算中心,另外还有不少由地方和行业建设运营的超算中心。这些超算中心在科学计算上做得很不错,发挥了很大的作用,但是部分超算中心的算力利用率并不饱和,完全也可以用这些机器来做大模型训练,但需要从源头做好软硬件协同设计。

  “硬件发展很快,过去一台机器,基本是CPU+内存+硬盘就可以,但是现在计算部件不只是简单的CPU,还有很多新的器件出现;软件方面,不论是人工智能应用软件,还是基于图数据的图计算应用,以及大数据应用,软件已和过去不一样,如何将软件和硬件更好协同起来非常重要。”