想跑千亿大模型 算力厂商放大招!CPU通用服务器成为新选择

千亿参数规模的大模型推理,服务器仅用4颗CPU就能实现!

在一台CPU通用服务器上,浪潮信息成功跑通了102B大模型推理。

如果推广开来,没有专用芯片的传统行业,不必更换硬件,也能用上AI了。

△浪潮信息通用服务器NF8260G7成功运行千亿参数大模型

这套方案以极低的延时,近乎实时地进行推理运算。

如此之大的模型,只靠CPU运行,究竟是怎么实现的?

4颗CPU带动千亿大模型?

用CPU在单台通用服务器设备中运行大模型推理,特别是千亿参数的庞然大物,困难是可想而知的。

要想高效运行千亿参数大模型,计算、内存、通信等硬件资源的需求量都非常巨大。

内存方面,千亿参数大约需要200~300GB的显存空间才放得下。

除了内存资源,千亿参数大模型在运行过程中,对数据计算、计算单元之间及计算单元与内存之间通信的带宽要求也非常高。

按照BF16的精度计算,要想使千亿参数大模型的运行时延小于100ms,内存与计算单元之间的通信带宽至少要在每秒2TB以上。

就算解决了这些硬件需求,软件的优化适配同样是一个难题。

由于涉及到大量的并行运算,现有的大模型普遍针对GPU加速集群而设计,这就导致了CPU算力与大模型之间的匹配程度远不及GPU。

因为并行工作环境的缺乏,AI模型需要频繁地在内存和CPU之间搬运算法权重,但通用服务器默认模型权重只能传输给一个CPU的内存。

要想进一步搬运到其他CPU,就需要该CPU作为中介,这就导致了CPU与内存之间的带宽利用率较低,进一步加大了通信开销。

通用AI算力的新标杆

尽管困难重重,但伴随着大量的技术攻关,这些困难也被相继克服——

在2U四路的NF8260G7服务器上,浪潮信息成功运行了千亿参数的源2.0大模型。

运行过程中,服务器仅使用了4颗英特尔6448H芯片, 无需GPU或其他任何额外的AI加速卡

可以说,浪潮信息这套通用服务器大模型运行方案填补了业界空白,成为了通用AI算力的新标杆。

框架和算法方面,该方案 支持PyTorch、TensorFlow等主流AI框架和DeepSpeed等流行开发工具 ,满足多样的生态需求。

在这种高效的千亿大模型通用服务器运行方案背后,无疑需要软硬件系统的协同创新。

在配置方面,浪潮信息NF8260G7选用了英特尔至强6448H处理器,共有32颗核心,主频为2.4GHz,L3缓存为60MB,基于32根32G的DDR5内存,内存容量1024GB,实测内存读带宽995GB/s。

更重要的是,该芯片具有AMX(高级矩阵扩展,类似于GPU的Tensor core)AI加速功能,能够更好地适配大模型的运算特点。

同时,为了解决带宽利用率低的问题,采用了“去中心化”的 全链路UPI总线互连 ,允许任意两个CPU之间直接进行数据传输。

这样的互联方案减少了通信延迟,并将传输速率提高到了16GT/s(Giga Transfers per second)。

但仅靠硬件优化还远远不够。

为了提升源2.0-102B模型在NF8260G7服务器上的推理计算效率,服务器上的CPU需要像GPU一样进行 张量并行计算

为此,浪潮信息研发工程师将源2.0模型中的注意力层和前馈层的矩阵计算分别拆分到多个处理器,实现同时使用4颗CPU进行计算加速。

张量并行对模型参数的切分粒度较细,要求CPU在每次张量计算后进行数据同步,增加了对CPU间通信带宽的需求。

不过,UPI总线互联的通信方案,刚好能够满足CPU间通信要求。

同时,对于千亿参数大模型的张量并行计算,4颗CPU与内存之间海量的通信需求达到2TB/s,远高于CPU的内存通信带宽。

为降低千亿参数对CPU和内存的通信带宽门槛,浪潮信息对源2.0-102B模型采用了 NF4量化技术

NF4(4位NormalFloat)是一种分位数量化方法,通过确保量化区间内输入张量的值数量相等,来实现对数据的最优量化。

特别地,NF4量化非常适合近似正态分布的数据,这与大模型的权重分布方式十分契合,所以通过NF4量化,可以获得比传统的INT4或FP4量化更高的精度。

△INT4数据类型与NF4数据类型对比

但NF4量化也带来了新的问题——NF4量化后,会产生大量的scale参数。

假如按照64个参数作为一个量化块计算,对于一个千亿参数的大模型,仅存储scale参数就需要额外的6GB内存。

为了减少内存占用,浪潮信息还通过嵌套量化将这些scale参数量化到FP8精度,显著减少了所需的存储空间。

通过 NF4量化和嵌套量化 ,模型的每个权重仅占用1/2字节空间,Yuan2.0大模型占用内存容量缩小到原来的1/4。

有AI芯片,为什么还要用CPU推理?

浪潮信息的这套解决方案,的确让千亿大模型在通用服务器上的运行成为了可能。

但我们仍然想问,明明有很好的AI加速芯片,为什么还要执着于研究CPU推理呢?

首先一点,是拥有更低的部署和推理成本 ——

从传统行业用户需求看,通用服务器的成本优势显著,较AI服务器成本可降低80%。

这样的成本节约不仅仅包括设备的购置部署,还包括与行业用户现有系统的融合。

采用通用服务器,意味着大模型服务可以更容易地与已有的企业IT系统进行合并,免去了部署AI服务器带来的迁移适配工作。

当然在技术层面,CPU方案的一些优势也是AI加速卡无法比拟的。

内存方面,通用服务器的内存容量远大于现在GPU芯片能够提供的显存容量

比如在一台双路服务器上,可以很轻松地把内存做到1TB,像NF8260G7这种四路服务器还能做到更大。

所以。对于一个千亿甚至数千亿的大模型,采用通用服务器进行部署,可以说在内存上完全“不受限”,完全能够放得进去。

相比之下,以GPU为代表的AI芯片虽然算力强劲,但内存就显得捉襟见肘了。AI大模型的运行不仅需要大内存,更需要高速的CPU和内存通信带宽。而基于先进的量化技术,浪潮信息的研发工程师在不影响模型精度的情况下对模型进行量化“瘦身”,大大降低了千亿参数对CPU和内存的通信带宽门槛。

同时,为了满足模型需求,需要多颗芯片协同工作 。这就涉及到了通用服务器芯片间的通信效率。

目前一些高端AI芯片也有高速带宽(比如NV Link),但由于成本较高,这样的方案往往在一些比较高端的芯片或者说高端的服务器上才会采用。

而且,这样的算力目前更多地被用于模型训练,用做推理在经济上并不划算。

在通用服务器当中,CPU和CPU之间拥有高速互联通信的链路,通过并行计算环境的优化,无论是在带宽还是在延迟上,完全可以满足千亿参数大模型运行过程中多计算核心通信的需求。

此外,随着新一代CPU开始加入AI加速指令集(如AMX),CPU的AI算力性能也在快速提升。

以浪潮信息现在采用的6448H为例,这样的一个四路服务器的算力也到430TOPS(INT8)或215TFLOPS(BF16),完美满足运行AI大模型推理的算力需求。

通用算力正在发生“智”变

站在更高的层次上看,基于NF8260G7的通用服务器大模型推理方案,也是浪潮信息战略中的重要一环。

包括AI技术在内,科技进步的最终目的是“落入凡间”,赋能千行百业。

与此同时,AI正在从专门的计算领域扩展到所有的计算场景,逐步形成“一切计算皆AI”的格局。

AI计算从以云端、服务器为主开始向手机、PC等各类端侧设备蔓延开来。

CPU、GPU、NPU等各种PU,也都被用于了AI计算。

在这样的趋势下, 传统上认为非典型的AI算力也在发生“智”变,向着智能算力演变

具体到以CPU为核心的通用算力, 能否运行千亿参数大模型,是衡量其能否支撑千行百业智能涌现的关键

浪潮信息此次的推出的新方案,填补了行业中千亿大模型通用服务器运行方案的空白,将作为一种更经济的千亿大模型部署方案,成为企业拥有AI的新起点。

未来,浪潮信息将继续坚持在算力、算法和数据三要素上的全面发力,实现更多的系统突破,让AI更深入地走进各行各业。


GTC2024:理想汽车怎么玩儿转大模型

在英伟达GTC2024的AI 驱动汽车科技创新发展的会议上,理想汽车智能空间算法首席科学家陈伟介绍了理想智能座舱领域人机交互方面的进展。

陈伟介绍了理想智能座舱人机交互的技术理念,基于大模型Mind GPT的新型的空间交互技术和产品,Mind GPT背后的AI工程架构是如何实现的。

以下是陈伟演讲内容整理,在不影响原意的基础上略有整理和删减。

注:关注“智车引擎”公众号,并回复数字“4”,将获得本场讲演的PDF。

人机交互的技术理念

人机交互的界面,我们认为正在从二维的平面走向物理世界下面三维的空间。 在这样的三维空间下,人与机器之间的交互方式,正在从人适应机器转变为机器来主动适应人,那么只有这样才能让人与机器之间的交互更加自然。

而在我们整个的空间加交互的架构下面,融合了语音、视觉、触控等多模态的感知信息,致力于为用户提供可以媲美人与人交互的自然的交互体验。 那么承载整个三维空间交互的AI助手就是理想同学,我们期待理想同学能够成为每一个车主家庭的数字成员,让车内每个人都能够轻松的使用AI。

在李想同学背后涵盖了从感知智能到认知智能的多项AI的技术,覆盖了感知、理解、表达三大的能力。 其中借助全车麦克风以及摄像头的强大的传感器,理想同学具备了听、看和触摸的多模态感知能力。

而在端和云强大算力的加持下,理想同学能够充分的理解语言、理解用户、理解世界,并给出自然而且有价值的回答。 最后借助智能空间的全景声以及多屏显示的能力,理想同学的回复信息得到了充分的表达,为用户提供了沉浸式的交互体验,不断加强人与车的情感连接。 目前,以感知和表达的代表的感知智能已经走向了成熟,但是理解代表的认知智能能在发展中,直到22年年底的时候,大模型的出现带来了一次认知技术上面的变革。

众所周知,人工智能的三要素是数据算法和算力。

伴随着互联网、移动互联网、车联网的兴起,整个网络积累的海量的数据可以用于AI大批量的学习。 截止到2023年的时候,全球已经有55亿的移动用户,同时在过去10余年中,以英伟达的GPU为代表的人工智能处理的能力在惊人的增长,令人震撼的是过去10年的算力已经增长了1000倍,这种进步并不来自于摩尔定律的预测,而是来自于全新的结构性的变化。

同时 AI算法伴随着深度学习的兴起,迎来了新一轮的技术浪潮。 2016年AlphaGo战胜人类是人工智能发展历史上的里程碑的事件,之后2017年transformer的提出奠定了如今基础的神经网络架构。

随后 open AI陆续推出了GPT1一直到GPT3,那么模型的规模在急速的扩大,一直到2022年11月基于大模型GPT3.5的Chat GPT震惊了全世界。 大模型的兴起变革了AI模型的训练范式,带来了新一轮的认知革命,也迎来了通往通用人工智能的曙光。 那么整个AI在经历了计算智能、感知智能的突破以后,迎来了认知智能技术上的爆发,经历了2023年大模型技术井喷式的发展之后,行业现在也逐步开始共识,基于大语言模型,Agent的技术将是走向AGI的关键路径之一。

那么大语言模型对于理想这边智能空间的空间交互也非常的关键,李想同学的智能化水平的提升也急需借助于大语言模型和Agent的技术来实现整个产品体验上新的突破。

为此,我们在2023年6月份发布了我们的多模态认知大模型——MindGPT。 结合我们多模态感知技术和大语言模型MindGPT,我们全面升级了空间交互的能力,基于多模态感知能力,我们可以充分的感知整个智能空间的各种模态的信息,并且把它转化为了人类的语言。

我们基于自研的Taskfomer结构设计了面向Agent的大模型MindGPT。 那么基于MindGPT就可以更好的对人类语言进行理解进行反馈,更好的完成人与机器之间的交互。

那么接下来我就分别和大家介绍一下在空间交互这个体系下面的两个核心技术,一个是多模态感知,一个是MindGPT。

在多模态感知方向上,感知技术现在已经逐渐在从小模型+流水线级联的方式,升级为了端到端的大模型。 我们在内部我们这样的端到端的感知类的大模型称之为MindGPT—MP是multi model perception的简称。

那么为了打造面向智能空间的空间动态感知的技术,我们在信号、语音、视觉这样感知领域都实现了技术的创新和突破。 那么这里面也列出了我们在过去的一年间发表的一些论文,大家也可以参考。

MindGPT—MP使用了海量的视听数据,进行了自监督学习和多任务的精调,借助整个全车麦克风以及前后排的摄像头,理想同学能够同步感知多路音频和视觉的信号,经过信号的分离、增强、编码、融合等前处理的技术以后,可以让车内的用户定位和人声分离都更加的精准。 理想同学就能像人一样边看边听边听边看,同时能够实现更强的多语种、多多语言、多方言、多任务的感知能力。

理想同学在交谈的过程中能够快速准确的知道谁在说、在说什么内容,情绪怎么样,发生了哪些有趣的事儿?

我希望和大家介绍一下我们在多模态交互上面的一些能力,我们也陆续发布了多个创新的多模态感知能力。

第一个是多模态的指代,我们希望在车里面能够产生开窗、开灯,打开屏幕、控制座椅这样的一些小需求的时候,不用让用户说非常冗长的话,也不用担心用户一直想不起来这个东西叫什么,而出现了交互上的坎坷,我们可以用更加简单省力的指代的方式,用一个手指来指代,比如说这个那个来完成。

目前指代的方向其实覆盖了全车的各个方向,同时理想同学也能看得懂指代更多的人和物品,那么接入更多的空车和体验上的交互,比如说可以说把那个屏打开,那么理想同学就会自己学习,因为你是要打那个方向上的屏幕,他会更加熟悉车里的每一个地方,更好的熟悉每个家人的需求。

那么第二个多模态的可辨析的说,理想同学可也能够读懂电影海报内容,可以随意表达。 孩子即便不认识字,也可以根据海报内容描述自己想要的内容,那么最后快速的实现对于和车之间的交互。

最后其实就是我们的方言自由说,在这种方言自由说的能力下面,我们现在可以用一个模型就能实现这种9种这种多方言的自由感知。

MindGPT能做什么?

以MindGPT为核心,我们逐渐构建了感知、规划、记忆、工具、行动的完整的Agent的能力,其中MindGPT基座模型使用了自研的Taskformer的结构,那么我们在整个MindGPT的训练中进行了充分的自监督学习,然后在整个学习世界知识的同时,我们也重点在车载场景的15个重点领域进行了知识的加强。 在这个基础上,其实基于我们整个在车载场景里面重要的三个大的场景和领域,用车出行和娱乐。

我们使用了sft和rlhf这样一系列的训练以后,能够覆盖在这三大场景里面的大概110多个领域,大概有1000多种的专属的能力,能够让MindGPT具备了理解生成、知识记忆和推理这三大的能力。

MindGPT作为整个大模型的控制器,它可以连接外部的Model Zoo和APIZoo,那么通过大模型对于用户输入的理解和思考,有条理的进行任务的规划,独立的完成自己擅长的部分,同时能够调度外部的API和专用模型,解决自己不擅长的部分,持续能够拓宽大模型能力的覆盖。 比如说其实我们也使用了RAG的技术,能够通过大模型去连接搜索的能力,然后通过搜索增强就能够时刻获取更新更准确的信息了。

同时 MindGPT也建设了记忆网络。 因为李想同学是希望能够面向全家人服务全家人的,那么所以理想同学应该理解和明白会懂每一位家人。 那么因此记忆非常重要,我们可以让两个同学能够基于和之前不同的人之间的历史的对话,能够记住用户的偏好和习惯,同时理解每一个用户目前的状态,从而让理想同学和人之间的交互更加个性化,也更加理解用户。

那么最后MindGPT的在线强化学习能力,能够基于用户的反馈和纠偏,不断能够迭代自身的能力,让理想同学越用越好用。

2023年12月份的时候,我们的MindGPT也参加了行业权威的中文大模型评测,C-Ezal和CMMLU,并且在这两个榜单上取得了双榜第一的成绩。 而也就在2023年的12月份,我们通过理想的OTA5.0向用户推送了全新的MindGPT。

MindGPTMind上线以后的理想同学在用车、娱乐和出行等多个场景里面,都展现了非常强的人机交互能力。

大模型的工程化

在大模型工程侧,我们主要分为两部分,一部分是大模型的训练,另外一部分是大模型的推理。

大模型的训练平台liPTM LLM pretrain Model的平台实现大模型的密集训练,基于大模型推理引擎LisaRT-LLM模型,它的推理服务实现了大模型的落地应用,这两部分的工作都基于英伟达GPU来完成的。

那么接下来其实就会重点介绍一下里PTM和LisaRT-LLM我们这两部分的工作。

首先想介绍一下我们整个的推理的服务,那么也就是MindGPT的云服务的这种架构,我们针对整个大模型的特点,设计了整个端云融合的MindGPT的推理服务体系,那么在整个架构图里面字底向上其实包括了针对业务场景优化的类似LisaRT-LLM的大模型的推理引擎。

第二就是和LisaRT-LLM结合的大模型的调度和推进的平台。 那么这个平台其实整个在服务上面的设计,就是希望它能够做到推理服务的编排、请求的调度、模型部署这样的一些能力,能够结合模型的类型业务的场景,包括Continuous Batching的这样的一些因素能够实时将生成的这种请求调度是最新的一些推理的后端,实现最优的性能和吞吐。

第三部分,其实是Taskformer中控服务,那么这个服务其实就实现了整个大目前用户所必需的一些数据库的集成检索,增强规划和记忆的能力。 那么再往上其实就是我们的SCI SDK,那么有了这样的SDK以后,就更好的去服务我们的应用的集成,在这个 SDK里面其实它有本地端的AI能力业务,我们直接云端的能力,那么它实现了端云一体化的模型能力的输出。

为了支撑整个百亿千亿级的MindGPT大模型的高效迭代,你看我们也自研了TB级吞吐的大数据的数据系统LiARK。

那么基于LiARK,就会支撑我们的这种千亿级参数这个大规模的训练系统LiPTM。 为了加速整个大模型数据集的高效生产,我们其实组合了像CPU GPU的能力,然后构建了高性能的分布式的数据的任务的集群,来处理这种海量的原始数据。 因为对于训练来说,其实除了整个算力之外,其实数据本身以及数据的传输也是非常重要的。

那第二件事其实就是为了加速整个千亿级大模型的高效训练,我们在使用了这种比较领先的模型结构和高性能的训练算子以及高效的训练策略的同时,其实也实现了4D的并行训练的模式,这4D就包括了像数据并行、 TCL并行、流水线并行和序列并行这样的一些训练模式,那么有了这些模式以后才能有机会及我们的算力的设备及我们的GPU去完成更大规模的大模型的训练。

千亿级的这种大模型的这种训练里,PTM它其实在整个训练速度和效率上,其实目前我们达到了还算不错的效果。 目前在基座的这个训练阶段,训练速度我们用像TOKEN/秒或者是sample/秒来评估的话,那么在适配的相同的模型架构以后,在相同的训练集下,训练过程中的速度就像图中所示,那么是HF的transformer的5.12倍,高于DeepSpeed的transformer的1.6倍和ColossalAI的相对于HF的3.25倍,就是相对来说我们对于HF transformer的这个效果的相对的提升来说,也是最高的。

在SFT阶段整个训练速度,在适配的相同模型结构以后,在相同训练集下面,整个训练的过程也如图所示,它是这个目前行业里面就是最好开源能力的3倍以上;在强化学习RHF训练速度上面是DeepSpeed大概3.1倍左右;从吞吐力上,在适配的相同模型结构以后,在相同训练集下面TFlOPS相比DeepSpeed也要快一些。 这是在整个训练的过程中,其实整个对标的情况。

当然就这块我觉得不管是目前开源的社区,还是各个公司大家自己预训练的平台上,整个进步都是非常快的。 我们这块其实整个的这种迭代速度也在持续的根据我们的模型结构做更深入的进行训练的这种优化和定制。

我们其实也在做这个大模型落地应用的推理的工作,那么最核心的其实就是这个自研了LisaRT-LLM大模型的推理引擎,这一块的话其实就可以完成像百亿千亿级的参数量大模型的落地。

首先就是对于GPT这种结构的模型,我们其实跟进了一些这个行业先进的一些推理加速的方案,比如说像FusedMHA或FlashAttention这样的方案,把核心算子优先加速起来,同时就是为了提升整个吞吐力的话,我们其实使用了Continuous Batching这样的方式去提升整个服务的并发量,然后最后再通过像tppp这种结合的方式,实现整个单卡或多卡的这种模型的并行,然后来应对这种千亿级参数量的这种大模型最终的落地。

我们也结合了我们MindGPT的业务场景和英伟达在英伟达这个 SRT-LLM的这个团队,我们做了非常深入的合作,进一步来提升了这个性能,然后降低推理成本。

我们主要做的工作就包括了三部分。

第一个就是说我们就是设定了比较明确的优化目标,就是能够在产品性能要求的情况下,一般来说我们就是整个Prefill延迟大概控制在了500 500毫秒以内,然后然后我们解码的速度控制在了20~30token/秒左右,然后尽量的去把我们的服务吞吐量去撑上。

第二件事其实就是我们也在围绕MindGPT的业务场景做了定制的优化,比如说现在缓存通用的一些泡沫的结果,做一些像Prefuse的一些catch什么的,然后根据这个生成的文本长度和性能要求,针对不同的垂域去选择对应的调度优化的策略。

第三个其实就跟英伟达SRT-LLM团队的这种合作,在一些核心算子,我们可以用TRT-LLm的这个能力直接来实现,那么这块其实对我们的助力也非常大。

通过这个上述的LisaRT-LLM的优化方案以后,其实我们在2023年Q4完成MindGPT推理服务的成功的落地。 这块也是伴随着整个OTA在李想同学中这个MindGPT的上线来一起完成的。 这块当时我们也在跟业界的优秀的开源的LLM的推理引擎做了性能的对比,那么测试的方法其实就是使用了线上的真实数据,然后固定QPS来做压测,然后在Prefill在500毫秒以内,然后解码速度在20Token/秒以上,这样的性能要求下,大概去测试一下整个推理服务最大的吞吐量。

那么图上的这个推理框架大的分别就是TGI的V1.1.0、vLLM的2.0和LisaRT-LLM10月份的版本。

那么这三个比完了以后,其实整个可以看到基于目前就是理想同学的场景,就我们实际车载的场景来看的话,其实测试结果在a800上面,LisaRT-LLM的这个吞吐率相比vLLM大概有1.3倍以上的提升。

这张图就可以看到就是这三个推理框架Prefill的延迟,随着QPS的压力增大以后的变化曲线,我们可以看到Prefill Latency这个纵坐标,当小于500毫秒的时候能达到的最大QPS,因为超过500毫秒,用户能够明显感受到就会响应非常的慢,就很难达到我们产品上的需求了。

因此就是从这个曲线可以看到,就在这种场景下,这个LisaRT-LLM也具备具备了相对较高的并发的负载的能力。

毫末布局大模型、智算中心 自动驾驶新基建如何筑成?

2023伊始,先是开年毫末智行举办HAOMOAIDAY,放出自动驾驶行业最大智算中心,再有小鹏、理想新春全员信剑指城市导航辅助驾驶,随后是对话式AI大模型ChatGPT火遍全网,自动驾驶AI技术再次成为顶流。

无论是自动驾驶的“进城”,还是ChatGPT的“进化”,其背后都是对数据、算力需求指数级增长的态势以及对大模型的训练。 当需求上来了,智算中心作为自动驾驶的“新基建”也就被业界越来越多的提及。

智算中心即智能计算中心,是基于人工智能理论,采用领先的AI计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,换句话说,智算中心其实是一个算力的供应和生产平台。那为什么有了它“自动辅助驾驶”就可以变为“自动驾驶”了?

“降服”自动驾驶边际成本 自动驾驶智算中心“专云专用”

有人说,智算中心是自动驾驶发展的助推器,因为自动驾驶算法模型训练是机器学习的典型场景之一,其视觉检测、轨迹预测与行车规划等算法模型需要同时完成高并发的并行计算,对算力有着极高的需求,而智算为提高算法模型的成熟度提供了巨大的算力。

在自动驾驶领域,说起智算中心,还得先提特斯拉。 2017年,Transformer网络出现后,奠定了当前大模型领域主流的算法架构基础,随后,2020年,特斯拉将Transformer大模型引入自动驾驶领域中,是AI大模型应用于自动驾驶的开端。 在这之后,特斯拉开始着手打造属于自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。 为了进一步提升效率,特斯拉在2021年发布了自研的AI加速芯片D1,并计划将25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。 最近一期的特斯拉AI DAY上,马斯克称将于2023年一季度部署完成特斯拉超级计算机群组ExaPOD。

国内方面,2022年8月,小鹏汽车和阿里云合建了当时国内最大的自动驾驶智算中心“扶摇”,专门用于自动驾驶模型训练,算力规模达600PFLOPS,相当于每秒可以完成60亿亿次浮点运算。 不过这个记录仅仅维持了4个多月。

今年1月,毫末智行联合火山引擎,共同推出自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。 吉利也在1月28日上线了吉利星睿智算中心,目前已接入智能驾驶和车联网实验数据近百PB,在线车辆的并发计算支持达百万辆。

从现有情形来看,成本和需求两重因素,是智算中心的诱人之处。

成本层面,算力作为自动驾驶的基本要素,需要更高性能的智算中心来完成训练、标注等工作。 以毫末的MANA OASIS为例,通过部署Lego高性能算子库、ByteCCL通信优化能力,以及大模型训练框架,软硬一体,毫末把算力优化到极致。 在训练效率方面,基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。

搭建高效、低成本的数据智能体系是自动驾驶技术健康发展的基础,也是自动驾驶系统能够不断迭代前行的重要环节,更是自动驾驶商业化闭环的关键所在。

小鹏汽车董事长何小鹏曾表态,“如果现在不以这样的方式(智算中心)提前储备算力,那么今后5年内,企业算力成本会从亿级,加到数十亿级。”

如果持续使用公有云服务,边际成本不断上涨只是一方面,更重要的是,智算中心可以让自动驾驶企业实现“专云专用”。 自动驾驶的开发包括从数据采集到数据筛选、打标、模型训练、回放性验证、仿真测试等等环节。 而云计算的本质是租赁计算设备,云服务商的设备都是统一采购,为了获得更多客户,这些设备都具备很大的通用性,设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定,很难与车企和自动驾驶公司的算法形成最佳匹配。 并且,云服务厂商对自动驾驶算法的了解程度不高,不可避免的会在调度算力时出现损耗和效率不高的问题。 所以,从需求的角度来看,智算中心似乎可以成为自动驾驶和车企的托底神器。

同样以毫末为例,有了MANA OASIS的加持,毫末MANA五大模型全新亮相升级,车端感知架构实现跨代升级,毫末的技术栈布局继续保持完整领先的态势,尤其在感知、认知等层面领跑行业,引领大模型、大算力、大数据发展方向,冲刺进入自动驾驶3.0时代。

拿数据采集、筛选和标注来说,自动驾驶系统在前期开发阶段,需要采集大量的道路环境数据,以此让车辆像人类驾驶员一样快速准确地识别车道、行人、障碍物等驾驶环境中的关键信息。 唯一的办法是,通过在海量数据基础上不断的重复训练与验证,车辆对道路环境的认知水平逐渐趋近于真实情景,判断的准确性在这一过程中不断提升。

不仅如此,车企收集到的数据还需要进行模型训练,算法通过在数据上进行运算产生模型,而智算中心将是驱动大模型和海量数据训练的加速器。 基于Sparse MoE,毫末根据计算特点,进行稀疏激活,提高计算效率,实现单机8卡就能训练百亿参数大模型的效果,实现跨机共享exper的方法,完成千亿参数规模大模型的训练,训练成本降低到百卡周级别;毫末设计并实现了业界领先的多任务并行训练系统,能同时处理图片、点云、结构化文本等多种模态的信息,既保证了模型的稀疏性、又提升了计算效率;MANA OASIS训练效率提升了100倍。

毫末智行CEO顾维灏也在详细阐释了建设智算中心的底层逻辑:“自动驾驶对智算中心的第一要求肯定是算力。 智算中心的超大算力代表了有多少的AI工程师在这个练武场中能够做出什么大模型,能训练多少大模型。 ”

智能辅助驾驶“进城” MANA OASIS帮助毫末解决了哪些难题?

现在很多车企和自动驾驶技术企业已经开始把打造智算中心当成下一阶段竞争重点。 今年1月的HAOMO AI DAY上,毫末智行董事长张凯给出了2023年自动驾驶行业趋势的十大新预测,超算中心赫然位列其中,“超算中心会成为自动驾驶企业的入门配置。 ”

事实上,当下,随着新能源汽车品牌普遍已经把高速公路场景下的辅助驾驶列为标配,赛场已经悄然从高速路转向城市。 与高速导航辅助驾驶相比,城市行车涉及了红绿灯、十字路口、行人电动车、遮挡、固定障碍物、频繁刹停起步等一系列难题,复杂度又提升了好几个数量级。

如果仅用实测车辆去挑战这些城市场景无法穷尽的Corner Case,成本、安全性、时间都将成为企业发展的壁垒。 由此,虚拟仿真就成为了解决部分成本及场景多样性的关键,其中,大规模的长尾场景需要数据中心提供充足的算力支持。 同时,仿真场景对现实的回归过程,同样需要巨大的算力提供支持。

在MANA OASIS的加持下,毫末的数据智能体系MANA五大模型全新亮相升级。 而在五大模型助力下,MANA最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,毫末车端感知架构实现了跨代升级。 这也意味着毫末的感知能力更强,产品力更强,向全无人驾驶加速迈进。

首先是视觉自监督大模型,让毫末在中国首个实现4D Clip的自动标注。 毫末利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力;然后,将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip,其中10%是标注帧,90%是未标注帧,再将这些clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向clip标注的100%的自动转化,同时降低98%的clip标注成本。 毫末视频自监督大模型的泛化性效果极佳,即使是在一些非常困难的场景,例如严重遮挡的骑行者,远处的小目标,恶劣的天气和光照,都能准确地完成自动标注。

其次是3D重建大模型,助力毫末做数据生成,用更低成本解决数据分布问题,提升感知效果。 面对“完全从真实数据中积累corner case困难且昂贵”的行业难题,毫末将NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。 3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低。 增加NeRF生成的数据后,还可将感知的错误率降低30%以上,且数据生成可实现全程自动化,无需任何人工参与。

多模态互监督大模型则可以完成通用障碍物的识别。 毫末在成功实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。 目前,毫末的多模态互监督大模型,引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。 该通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。

动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中。 在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。 为此,毫末在BEV的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测。 让毫末的感知能力,能像人类一样在标准地图的导航提示下,就可以实现对道路拓扑结构的实时推断。

毫末认为,解决了路口问题实际就解决了大部分城市NOH问题。 目前在保定、北京,毫末对于85%的路口的拓扑推断准确率高达95%。 即便是非常复杂、非常不规则的路口,毫末也能准确预测,比老司机还老司机。

人驾自监督认知大模型在今年2月已经被正式升级为DriveGPT,这也是全球首个自动驾驶认知大模型。 它能让毫末的驾驶策略更加拟人化,安全及顺畅。 目前,毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。 接下来,DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。

仿真测试能有效缩短技术和产品开发周期,降低研发成本。 业内典型的长尾场景问题不够丰富,现实中可遇而不可求的极端场景,利用仿真平台可以便捷生成。 由于仿真测试中的模拟环境需要实现多模态融合,以支持传感器模组的复杂性,因而也需要大算力的支持。

除了毫末,特斯拉超算中心拥有近2万张GPU,对自动驾驶训练效率产生立竿见影的效果,最大限度地提升了自动驾驶系统的开发效率;大陆集团的高算力集群,将开发周期从几周缩短至几个小时,使自动驾驶得以在中短期商业计划中落实;机器学习时间的缩短加快了新科技进入市场的速度;“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天缩短至1小时内,大幅提速近170倍……

当前,一个不争的事实就是,在自动驾驶领域具有长期规划的车企,无论是造车新势力还是传统品牌,或者技术供应商,都在搭建自己的超算中心,以掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。 相反,如果没有超算中心,那么自动驾驶训练速度将明显放缓,自动驾驶企业间的差距也将愈发明显。

用智算中心打造数据护城河 数字新基建逐步成为发展“标配”

自动驾驶发展至今,业界发现乘用车智能辅助驾驶是最有可能大规模铺开的商业场景。 据高工智能汽车研究院数据显示,2022年中国市场(不含进出口)乘用车前装标配搭载L2级辅助驾驶的搭载率,已经连续第二个月超过30%。 智研咨询数据显示,预计到2025年,全球新车L2自动驾驶的渗透率可达53.99%。

今年,城市导航辅助驾驶也开启了量产的征程。 西部证券预测,2023~2025年,国内市场上搭载城市导航辅助驾驶的车型将分别达到70万、169万和348万辆,占比将分别达到17%、40%和70%。

在城市导航辅助驾驶落地加速的背景下,更容易复制、拓展的重感知的方案,受到了更多关注。 在重感知技术路线下,面对“道路拓扑结构实时推断”的挑战,毫末的选择是在特征图基础上,以标精地图作为引导信息,使用自回归编解码网络,通过结构化的拓扑点序列解码,实现车道拓扑预测。 由此不难看出,业界逐渐达成共识的重感知路线,相比高精地图方案,更依赖算力加持。

人工智能是创新的加速器,智算中心则可以为各类技术创新提供支撑。 一方面,智算中心可以为构建安全可信、可复用的技术研发环境提供算力设施支撑,为各领域科技研发提供智能计算服务,加速科技研发的进程;另一方面,智算中心是新一代信息技术的集成应用载体,智算中心的快速建设推广与规模化应用将推动通信服务网络、大数据、人工智能等技术的快速迭代,从而促进技术创新。 自动驾驶数据是片段式的,特点是小文件多,达到百亿个,而且训练需要交换的数据多,智算中心可以提供充足的带宽,并且可以让自动驾驶模型拥有更好的并行计算框架,在训练的时候把硬件资源都利用起来。

2020年4月20日,国家发展改革委首次明确新型基础设施的范围,其中就包括以智能计算中心为代表的算力基础设施。 2023年1月10日,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》,指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。

根据相关统计和测算,目前全国超过30个城市在建或筹建智算中心,未来5年我国智能算力规模年复合增长率将达52.3%。 智算中心的创新发展,将进一步为人工智能夯实“算力底座”,成为带动人工智能及相关产业快速发展的新引擎。

“我们测算,智算中心带来的成本优化是惊人的,将达到亿元级别。 ”这是今年1月,张凯提出的预测。 从目前及未来的规划量产规模来看,毫末自建智算中心可节约巨额成本;同时,其带来的效率提升也非常明显。

人工智能发展很快,新的算法层出不穷,需尽快引入新的技术和模型,与此同时,数据是智能化发展最大的驱动力,也占据了大量成本构成。 用自建智算中心来打造数据护城河,不仅能够完善产业智能生态,更能让企业在智能化方面占据先发优势,智算中心作为数字新基建,未来势必将引领自动驾驶技术持续迭代升级。

「大模型+大算力」加持,通用人工智能和智能驾驶双向奔赴

开年以来 ChatGPT、GPT-4 的相继面世再度掀起计算机科学领域通用人工智能(AGI)研究热潮,也不断刷新我们对 AI 的认知。

作为具有人类水平表现的大型多模态模型,GPT-4 被视为迈向 AGI 的重要一步,标志着创新范式的深度变革和生产力的重新定义,也必将带来更多元的产品迁移。

截至目前,全球已经有超百万家初创公司声称使用这一秘密武器来创造新产品,而这些产品将彻底改变从法律到股票交易,从游戏到医疗诊断的近乎一切领域。

尽管其中很多是营销泡沫,但与所有技术突破一样,总会存在炒作周期和意想不到的远期效果。

事实上在另一边,进入 2023 年智能汽车领域同样十分热闹。

智能化已然成为上海车展全场关注的最大焦点,除了激光雷达等关键传感器的单点式突破,各大巨头也纷纷展示智能驾驶全产品矩阵,城市场景辅助驾驶量产落地加速推进。

更加值得注意的是,BEV、大模型、超算中心等计算机热词正在与自动驾驶、行泊一体、城市 NOA 等智驾焦点火速排列组合,颇有相互交融、双向奔赴的味道。

在这背后,一方面是近年来智驾、智舱持续升级对 AI 在汽车场景落地的数据、算法、算力不断提出更高要求,另一方面,AGI 的重大突破也已将触角伸向智能汽车,将其视为实现闭环应用的重要场景,很多企业布局已经相当高调。

日前,商汤科技 SenseTime 举办技术交流日活动,分享了以「大模型+大算力」推进 AGI 发展的战略布局,并公布该战略下的「日日新 SenseNova」大模型体系。

在「大模型+大算力」加持下,本次上海车展商汤绝影驾、舱、云一体产品体系已全栈亮相,近 30 款合作量产车型集中展出,商汤也再度分享了智能汽车时代的 AGI 落地新思考。

本次上海车展亮相的部分绝影合作车型展示

算法:AI 正式步入大模型时代

如商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚所言,「AGI 催生了新的研究范式,即基于一个强大的多模态基模型,通过强化学习和人类反馈不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。」

通用大模型并非为自动驾驶而生,或为满足自动驾驶的特定任务需求而设计。 但智能驾驶开发的诸多新需求已在推动算法从专用小模型向通用大模型快速演进。

首先是应对海量数据处理和 Corner Case 问题的迫切需求。

对于感知系统低频出现但至关重要的小目标及带来的潜在安全隐患,算法开发需要面对海量数据,传统的 AI 小模型将难以同时处理大数据量和高复杂度的任务。 通用大模型则可用在长尾目标的初筛过程,并叠加语料文字处理得到很好的效果。

再比如智驾算法开发对自动化数据标注、降低人工成本的诉求。 相比于人工标注,通用大模型将自动化对海量数据完成标注任务,大幅降低标注数据获取的时间成本和本身的金钱成本,从而缩短研发周期、提升成本效益。

处于类似的考量,近年来国内外巨头企业已围绕大模型纷纷展开各自智驾布局。

继 Google 于 2017 年提出将 Transformer 结构应用在 CV 领域图像分类,大模型已在 GPT-2、GPT-3、BERT 等当中不断证明实力,特斯拉率先站台 Transformer 大模型征战图像视觉。

国内企业也紧随其后:

毫末智行已宣布自动驾驶认知大模型正式升级为 DriveGPT,网络表示利用大模型来提升自动驾驶感知能力并将大模型运用到数据挖掘,华为也已宣布加入大模型争霸赛,自研「盘古」即将对外上线。

作为行业领先的人工智能公司,商汤在大模型领域可谓乘风破浪,过去一两年则全面将大模型能力在各业务线 20 多个场景落地,包括智能驾驶。

商汤「日日新 SenseNova」大模型体系背后是大模型研发中深厚的积累。 商汤有自己的全栈大模型研发体系,其中就包括针对大模型的底层训练及实施过程中的各种系统性优化。

例如,商汤近期向社区发布的用于真实感知、重建和生成的多模态的数据集 OmniObject3D 中包含 190 类 6000 个物体,数据质量非常高。

再比如,商汤在 2019 年就已首次发布 10 亿参数的视觉大模型,到 2022 年参数规模已达到 320 亿,这也是世界上迄今为止最大的视觉模型。

此外,商汤也在智驾领域持续展示大模型能力。 2021 年开发的 BEV 感知算法在 Waymo 挑战赛以绝对优势取得冠军,2021 年 BEV Former 的 Transformer 结构至今仍是行业最有影响力的 BEV 工作,今年开发的 UniAD 是业内首个感知决策一体化的端到端自动驾驶解决方案。

在技术实力的另一端是量产进度。商汤也给出了自己的智能驾驶量产公式:

自动驾驶技术能力=场景数据 x 数据获取效率 x 数据利用效率² =场景数据 x 数据获取效率 x 先进算法 x 先进算力。

而先进的算法大模型不仅将通过跨行业数据汇聚提升驾驶场景数据资源,通过数据闭环开发模式和自动数据标注提升数据获取效率,更将大幅提升感知精度和感知丰富度进而成倍提升数据利用效率。

依托原创 AI 算法和模型积累,商汤领先的 BEV 感知算法推进国内首批量产应用,并采用 Domain Adaption 算法有效解决跨域泛化问题。 商汤首创的自动驾驶 GOP 感知体系将目标数据获取的人力成本降低 94%,实现低成本的车端模型开发,目前也已投入量产应用。

算力:智能汽车时代的重要基础设施

随电子电气架构技术由分布式不断向集中式演进,大算力芯片成为新型电子电气架构实现的物理基础。

近年来车端芯片算力发展突飞猛进,如英伟达规划中的 Atlan 单颗芯片算力超 1000TOPS,THOR 单颗算力超 2000TOPS,将大幅提升单车感知决策能力。

而在云端,AGI 在自动驾驶、网联等场景的泛化应用将提出比车端指数级更高的算力要求——从数据标注到模型训练,从场景仿真到算法迭代。

算力将是智能汽车时代的新型基础设施。

在此背景下,近年来主流企业纷纷开启双线并行探索,车端自研算力平台,云端建立超算中心。 而进入大模型时代后,数据量随着多模态的引入也将大规模增长,因此必然也会导致 AGI 对算力需求的剧增。

可以看到,英伟达车端云端同步布局并将提供端到端的全栈式 AI 加速计算解决方案,特斯拉也早在 2021 年 8 月发布自研云端超算中心 Dojo。

据近期报道,埃隆·马斯克也将成立一家人工智能公司来与 OpenAI 竞争,已购买数千个英伟达 GPU 并一直招募 AI 研究人员和工程师。

国内方面,吉利、蔚来、特斯拉、毫末智行、小鹏等企业也已跟进布局云端算力集群,投入巨大以提升智驾开发算力储备。

对于商汤来说,如果说大模型将是支撑智能驾驶的上层建筑,那么大算力就是数字基座。

商汤科技董事长兼 CEO 徐立表示,目前大模型对基础算力、基础设施的需求非常旺盛,基础算力对并行效率的要求也非常高,但真正好用的基础设施其实十分稀缺。

出于这一原因,商汤历时五年自建了业界领先的 AI 大装置 SenseCore,完成 2.7 万块 GPU 的部署并实现 5.0 exa FLOPS 的算力输出能力,是亚洲目前最大的智能计算平台之一,可同步支持 20 个千亿规模参数量的超大模型同时训练。

位于上海临港的 AIDC 人工智能计算中心将为智能汽车的数据存储、标注、脱敏、仿真训练、算法迭代到部署的闭环提供算力支持,打通基于数据驱动的算法生产全流程,加速高级别智能驾驶技术的 AI 模型生产和持续迭代,推动实现规模化量产。

在 AIDC 的基础上,AI 大装置也将提供支持大模型生产的一系列服务:

如此规模的算力设施即使特斯拉同期也尚难以望其项背,也必将推动大模型的高效闭环。

「大模型+大算力」推动智能汽车行业整体进程

汽车行业正在面临百年未有之大变革。 尽管此次以「大模型+大算力」推进 AGI 发展是商汤提出的战略布局,但事实上,这一理念早已在行业层面达成共识。

基于感知、决策规控和 AI 云三大核心能力,商汤「大模型+大算力」已赋能绝影驾、舱、云三位一体产品体系量产落地:

除智能驾驶领域的全栈能力和行泊一体量产解决方案外,「大模型+大算力」也正在助力商汤打造智能座舱跨场景生态。

车展期间,与商汤「日日新 SenseNova」大模型体系深度融合的绝影未来展示舱升级亮相,语言大模型「商汤商量 SenseChat」以及 AIGC 文生图平台「商汤秒画 SenseMirage」也已上车,多点融合重构人车交互方式,打造第三空间。

以「商量」为例,作为千亿级参数的自然语言处理模型,其使用大量数据训练并充分考虑中文语境,展示出出色的多轮对话和超长文本的理解能力。

商汤也展示了语言大模型支持的诸多汽车场景创新应用,如在行车过程中化身「邮件助手」自动提炼关键信息,作为「会议助理」自动生成会议纪要,大大节省用户行车时处理工作的时间和精力,为未来出行的应用场景拓展带来丰富的想象空间。

此外,以人工智能大模型开发、生产、应用为核心,一站式

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/keji312/5932.html
Meta电话会 未来是 ! AI还是AI AI
2赶超GPT 20亿参数Gemma 谷歌狂卷小模型