中国英伟达出品首个国产全功能GPU的万卡集群来了！

作者： 2024年07月05日网红浏览

纯 国产GPU 的 万卡集群 ，它来了！

而且还是 国内首个全功能GPU ， 兼容CUDA 的那种。

这个集结了超过 10000张 高性能GPU的超复杂工程，它的算力有多大？

不卖关子，直接揭晓答案——

总算力 超万P ，专为万亿参数级别的复杂大模型训练而设计。

规模还只是它的特点之一，其它亮眼的地方还包括：

这便是江湖人称“中国版英伟达”的 摩尔线程 ，对自家智算中心全栈解决方案夸娥（KUAE）升级后的最新 “打开方式”。

而纵观国内算力的发展进程，仅是今年上半年便陆陆续续有不少“头部玩家”先后宣布布局万卡集群， “打群架” 之势，好不热闹。

但，万卡国产GPU，确实很少见。

加之以 生成式AI 为主旋律的大模型热潮当道，Scaling Law的“魔法”仍在持续奏效，训练GPT-4所需要的GPU数量便已经达到了25000个。

以及在大模型架构方面也不只是围绕Transformer，而是呈现出多元化的趋势；与此同时，AI、3D和HPC跨技术与跨领域融合不断加速……

因此，当下的技术给算力提出了更高、更复杂、更多样化的要求——

万卡集群已然成为 大模型玩家的最低标配 ，更是促使国产GPU大步迈入 “万卡时代” 。

正如摩尔线程创始人兼CEO 张建中 所述：

那么前不久刚官宣完千卡集群的摩尔线程，又是如何在这么短的时间内率先跨入“万卡俱乐部”的呢？

国产GPU万卡集群，是怎么“炼”成的？

在回答怎么“炼”之前，必须要确认的一点便是目标—— 什么样的万卡集群才算是好用的 。

对此，张建中基于刚才种种的现状分析，给出了一个符合当下算力需求的 “好用公式” ：

而这也正是最新夸娥（KUAE）万卡集群所具备的五大特点。

展开来看，首先便是万卡万P的 超大算力 。

具体而言，升级后的夸娥（KUAE）已经实现了单集群规模超万卡，浮点运算能力达到10Exa-Flops。

与此同时，在GPU显存和传输带宽方面，显存容量达到了PB级，卡间互联总带宽和节点互联总带宽同样也达到了PB级，实现算力、显存和带宽的系统性协同优化，全面提升集群计算性能。

在大算力之后，便来到了好用的第二个关键因素—— 有效计算效率 （MFU）。

MFU作为衡量大型模型训练效率的标准指标，能够直观地反映整个集群训练过程的效率。

夸娥（KUAE）万卡集群通过在系统软件、框架和算法等多个层面进行深入优化，可以成功实现对大型模型的高效训练，MFU值最高可达60%。

具体来说，在系统软件层面，通过采用计算与通信效率的极致优化技术，显著提升了集群的执行效率和性能。

在框架和算法层面，该集群能够支持多种自适应的混合并行策略和高效的显存优化技术，能够根据具体的应用需求自动选择并配置最佳的并行策略，从而显著提高训练效率和显存的利用率。

此外，针对处理超长序列的大型模型，夸娥（KUAE）万卡集群利用CP并行技术和环形注意力机制等优化手段，有效减少了计算时间和显存使用，进一步提升了集群的训练效率。

对于一个好用的集群而言， 稳定性 是最不可忽视的。

在这方面，正如刚才我们提到的，夸娥（KUAE）万卡集群平均无故障运行时间可超过15天，最长可实现大模型稳定训练30天以上，周均训练有效率目标为99%。

之所以把目标定得那么高，得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制，包括：

至于最后一个最重要的保障，就在于 通用性 和 生态友好 。

据了解，夸娥（KUAE）万卡集群专为通用计算场景量身定制，能够为LLM、MoE、多模态和Mamba等多样化的架构和模态的大型模型提供加速支持。

此外，这个集群还采用了高效且用户友好的MUSA编程语言，并且完全兼容CUDA，配合自动化迁移工具Musify，能够实现新模型的即时”Day0”级迁移，确保了生态系统的即时适配性，从而帮助客户迅速部署其业务。

不过有一说一，虽然摩尔线程已经解锁了万卡集群这一大关，但这个过程并非是将GPU堆叠这么简单，用张建中的话来说就是：

例如，单是在超大规模组网互联这个问题上，超万卡集群网络便会涉及参数面网络、数据面网络、业务面网络、管理面网络等。

不同的网络需要采取不同的组网部署方式，其中，超万卡集群对参数面网络方面的要求是最高。

再如 集群有效计算效率 方面，大量实践表明，集群规模的线性提升无法直接带来集群有效算力的线性提升，受限于芯片计算性能（芯片及算子使用效率）、GPU显存的访问性能（内存和I/O访问瓶颈）、卡间互联带宽、有效的分布式并行策略等，集群有效计算。

除此之外，还会涉及训练高稳定与高可用、故障快速定位与可诊断工具、生态快速迁移、未来场景通用计算等种种问题。

总而言之，是有一种牵一发而动全身的感觉。

这就不免让人发出疑问：摩尔线程为什么非要啃下这块硬骨头？

万卡很难，但也很必要

没错，这正是当下随着大模型以“AI一日，人间一年”的速度迭代更新之下，算力所面临的最根本问题。

也正因如此，主流的大模型玩家基本上都是配备了万卡集群，例如：

而大模型玩家们要想保持在业界的领先性，那么自家的大模型的更新迭代的速度就不能太慢， 两周更新一次似乎也是成为了当下的常态 。

因此，摩尔线程要做的事情，就是用万卡集群、全栈方式，打造一个 大模型训练超级加工厂 ，可以在算力上匹配当下大模型如此快速更迭的速度。

所以摩尔线程为什么要啃下这块硬骨头，就不难理解了。

那么随之而来的另一个问题便是：为什么摩尔线程能够做到？

其实这并非是一蹴而就的事情。

其实早在2022年的时候，团队便已经设定了建集群的大方向与策略，这是因为当时A100算力也是处于紧缺的状态，国内市场急需能够替代它的产品。

从GPU功能情况来看，摩尔线程是在唯一可以从功能上对标英伟达的国产GPU企业。

随着2023年大模型的火爆，这种GPU集群式的方向就显得更加正确，毕竟黄仁勋在发布B200之际就表示“我们需要更大的GPU，如果不能更大，就把更多GPU组合在一起，变成更大的虚拟GPU”。

而摩尔线程更是为此狠狠做了一番准备，所以现在看来，摩尔线程当时的策略和决定，确实是具备前瞻性的。

那么最后的最后，便是市场认可度的问题了，对此，在这次活动中的一张图便可以解释一切：

总而言之，细数摩尔线程在走来的这一路，似乎总是前瞻性地、开创性地推动着国产GPU的发展；而这一次，也是毫不意外地再拿下“国内首个”的头衔。

至于这个新升级的万卡方案是否能把握住高端算力的空窗期，答案就交给市场来回答了。

— 完 —

七彩虹等和ATI、英伟达的关系

ATI,NVIDIA是高科技公司,只负责核心GPU构架的设计.具体GPU芯片的生产大部分还是靠台积电等高科技工厂代工制造的.稍微了解大公司的制造流程就明白,七彩虹,影驰等低价批量拿到显卡最核心的GPU,再批量拿到PCB板,风扇,显存,电容等加工一番,显卡就慢慢成形了,钱也就赚出来了.

GPU计算都能应用在哪些领域？哪里能买到？

GPU通用计算能够应用的领域很多，主要都是在科学计算方面。医疗、勘探、工矿、设计……好多好多，主要就是用在那些对浮点数需求密集的领域。现在的GPU计算卡就是Nvidia的Tesla，AMD还没有提供像样的解决方案呢。 Tesla都是专业领域应用的，所以，好像要去Nvidia原厂订购。或者，你看看丽台有没有。这东西太少见了，现在都是放在大型集群上，不是普通民用的产品。你用这种东西干什么？一般用用的话，可以用Nvidia显卡上的CUDA技术，和Tesla的功能很接近的啊。

小米3 英伟达和高通cpu哪个好

两者各有优缺点：英伟达处理器内置的GPU图形处理效果高于高通800，但是英伟达的频率高发热会很明显，性能上相差不大的。具体选择什么需要根据使用的网络来决定的：1. 小米3移动版搭载的处理器型号为：Nvidia Tegra4。 2. 小米3联通版和电信版搭载的处理器型号为：高通骁龙800（MSM8674AB）。