手机跑大模型提速4

有CPU就能跑大模型,性能甚至超过NPU/GPU!

没错,为了 优化模型端侧部署 ,微软亚洲研究院提出了一种新技术——。

这项技术 主打性价比 ,不仅能让端侧模型跑得更快,而且资源消耗量更少。

咋做到的??

在CPU上高效部署低比特大语言模型

一般来说,要想在手机、PC、树莓派等端侧设备上使用大语言模型,我们需要解决 存储和计算问题

常见的方法是 模型量化 ,即将模型的参数量化到较低的比特数,比如4比特、3比特甚至更低,这样模型所需的存储空间和计算资源就会减少。

不过这也意味着,在执行推理时,需要进行 混合精度的矩阵乘法运算 (mpGEMM),即用低精度的权重和高精度的激活向量进行计算。

然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,因此它们通常需要将低精度的权重转换回高精度,这个过程叫做 反量化 (dequantization)。

但这种方法不仅效率低,而且当比特数进一步降低时,并不能带来性能上的提升。

对此,新技术T-MAC采用基于查找表(LUT)的计算范式, 无需反量化 ,直接支持混合精度矩阵乘。

这样,T-MAC不仅提高了推理性能,还使得模型更加统一和可扩展,尤其适合在资源受限的端侧设备部署。

此外,T-MAC不依赖于专用的硬件加速器NPU或GPU, 能够仅利用CPU部署模型 。甚至在某些情况下,它的推理速度可以超过专用加速器。

T-MAC的关键创新在于采用 基于查找表(LUT) 的计算范式,而非传统的乘累加(MAC)计算范式。

T-MAC利用查找表直接支持低比特计算,从而消除了其他系统中必须的反量化操作,并且显著减少了乘法和加法操作的数量。

经过实验,T-MAC展现出了卓越的性能:

配备了最新高通Snapdragon X Elite芯片组 的Surface AI PC 上,3B BitNet-b1.58模型的生成速率可达每秒48个token,2bit 7B llama模型的生成速率可达每秒30个token,4bit 7B llama模型的生成速率可达每秒20个token。

这甚至超越了NPU的性能!

当部署 llama-2-7B-4bit模型 时,尽管使用NPU可以生成每秒10.4个token,但CPU在T-MAC的助力下,仅使用两核便能达到每秒12.6个token,最高甚至可以飙升至每秒22个token。

这些都远超人类的平均阅读速度,相比于原始的llama.cpp框架 提升了4~5倍

△BitNet on T-MAC (基于LUT) vs llama.cpp (基于反量化)

即使在较低端的设备如 Raspberry Pi 5 上,T-MAC针对3B BitNet-b1.58也能达到 每秒11个token 的生成速率。

同时,T-MAC也具有显著的 功耗优势

达到相同的生成速率,T-MAC所需的 核心数 仅为原始llama.cpp的1/4至1/6,降低能耗的同时也为其它应用留下计算资源。

值得注意的是,T-MAC的计算性能会随着比特数的降低而 线性提高 ,这一现象在基于反量化去实现的GPU和NPU中是难以观察到的。

这进一步使得T-MAC能够在2比特下实现单核每秒10个token,四核每秒28个token,大大超越了NPU的性能。

采用新的计算范式

好了,说完了效果,咱们接着展开T-MAC的 技术细节

矩阵乘不需乘,只需查表 (LUT)

对于低比特参数 (weights),T-MAC将每一个比特单独进行分组(例如,一组4个比特),这些比特与激活向量相乘,预先计算所有可能的部分和,然后使用LUT进行存储。

之后,T-MAC采用移位和累加操作来支持从1到4的可扩展位数。

通过这种方法,T-MAC抛弃了CPU上效率不高的 FMA(乘加)指令 ,转而使用功耗更低、效率也更高的TBL/PSHUF(查表)指令。

△混合精度GEMV基于现有反量化的实现范式 vs T-MAC基于查找表的新范式

以比特为核心的计算,取代以数据类型为核心的计算

传统的基于反量化的计算,实际上是以 数据类型为核心 的计算,这种方式需要对每一种不同的数据类型单独定制。

每种激活和权重的位宽组合,如W4A16(权重int4激活float16) 和W2A8,都需要特定的权重布局和计算内核。

例如,W3的布局需要将2位和另外1位分开打包,并利用不同的交错或混洗方法进行内存对齐或快速解码。

然后,相应的计算内核需要将这种特定布局解包到硬件支持的数据类型进行执行。

而T-MAC通过 从比特的视角 观察低比特矩阵乘计算,只需为单独的一个比特设计最优的数据结构,然后通过堆叠的方式扩展到更高的2/3/4比特。

同时,对于不同精度的激活向量(float16/float32/int8),仅有构建表的过程需要发生变化,在查表的时候不再需要考虑不同的数据结构。

△以比特为核心的查表计算混合精度GEMV

同时,传统基于反量化的方法,从4-比特降低到3/2/1-比特时,尽管内存占用更少,但是计算量并未减小,而且由于反量化的开销不减反增,性能反而可能会更差。

但T-MAC的计算量随着比特数降低能够线性减少,从而在更低比特带来更好加速,为最新的工作BitNet, EfficientQAT等发布的2-比特模型提供了高效率的部署方案。

比如下图展示了:

(1)使用不同端侧设备CPU的单核,T-MAC在4到1比特的混合精度GEMV算子相较llama.cpp 加速3-11倍

(2)T-MAC的GEMM耗时能随着比特数减少线性减少,而基于反量化的llama.cpp无法做到(1比特llama.cpp的算子性能由其2比特实现推算得到)。

高度优化的算子实现

概括而言,基于比特为核心的计算具有许多优势,但将其实现在CPU上仍具有 不小的挑战

与激活和权重的连续数据访问相比,表的访问是 随机的

表在快速片上内存中的驻留对于最终的推理性能尤为重要,然而, 片上内存是有限的 ,查找表(LUT)方法相比传统的mpGEMV增大了片上内存的使用。

这是因为查找表需要保存激活向量与所有可能的位模式相乘的结果,这比激活本身要多得多。

△T-MAC与llama.cpp在计算数据流上的不同

为此,微软亚洲研究院的研究员们深入探究了基于查表的计算数据流,为这种计算范式设计了高效的数据结构和计算流程,其中包括:

将LUT存入片上内存,以利用CPU上的查表向量指令 (TBL/PSHUF) 提升随机访存性能。

改变矩阵axis计算顺序,以尽可能提升放入片上内存的有限LUT的数据重用率。

为查表单独设计最优矩阵分块 (Tiling) 方式,结合autotvm搜索最优分块参数

参数weights的布局优化:

weights重排,以尽可能连续访问并提升缓存命中率

weights交错,以提升解码效率

对Intel/ARM CPU做针对性优化,包括

寄存器重排以快速建立查找表

通过取平均数指令做快速8-比特累加

研究员们在一个基础实现上,一步步应用各种优化,最终相对于 SOTA低比特算子 获得显著加速。

例如,在实现各种优化后,T-MAC 4-比特算子最终相对于llama.cpp获得显著加速:

最后,T-MAC 现已开源 ,相关论文已在arXiv公开,感兴趣可以进一步了解。


AI 应用爆发,算力会迎来哪些发展机遇?

随着人工智能应用的不断扩大和深入,算力需求将不断增加。 因此,未来算力发展将会迎来以下机遇:超级计算机:随着技术的提升,超级计算机的算力将会越来越强大,可以处理更加复杂的人工智能问题。 量子计算:量子计算是一种全新的计算方式,它利用量子比特而非传统的经典比特进行计算,因此具有比传统计算机更快的计算速度。 这将为人工智能开辟新的研究方向,同时也为解决更加复杂的人工智能问题提供了可能。 模型压缩与量化:针对目前人工智能模型存在的内存占用和计算速度慢等问题,模型压缩和量化技术将成为重要的发展方向。 通过减小模型大小和复杂度,同时保持良好的精度,可以在不降低算法性能的情况下实现更高效的计算。 分布式计算:由于单台设备的算力有限,分布式计算将成为满足大规模计算需求的关键技术之一。 这项技术可以将计算任务分配给多台设备进行处理,提高计算效率和准确性。 总之,随着人工智能应用的不断扩大和深入,算力发展将会迎来更多机遇,并为人工智能技术的进一步发展提供有力支撑。

遥控模型车的引擎怎么调节

去模型论坛RCFANS潜水去。 。 上面有很多专业只是。 。 。 调节引擎可不是靠文字就可以说清楚的 多看看视频,多听听引擎回馈的声音,最重要。 有时候复制过来一大堆原文是没有用的。 。 。 。

专访腾讯苏奎峰:从数据要素到三大平台,自动驾驶落地提速

数据是自动驾驶的「燃料」已成为业界共识。

4月9日,中央决策层下发的一个重要文件,让“数据要素”的重要性盖上了官方盖章,成为生产要素之一,数据资源成为了亟待挖掘的黄金宝矿。

事实上,数据要素的重要性和想象力不仅局限于此。 未来 汽车 将不再是信息孤岛,是一个移动的感知终端,将与路、云端互联,通过大数据、人工智能等技术实现智慧出行,数据是链接这一切的核心因素。

在众多的自动驾驶玩家当中,构建「数据闭环」是腾讯助力产业发展,实现突围的关键路径。

数据要素高效利用背后更深层次的逻辑在于产业理解和基础架构支撑,腾讯云提供强大的云服务能力,并基于此构建高效的自动驾驶数据服务体系。 因此,在关于数据要素如何驱动自动驾驶的问题上,腾讯有着自己的一番理解。

基于此,腾讯在自动驾驶业务上摆出了三个具有杀伤力的产品:大数据云平台、仿真测试平台和高精度地图。

雷锋网新智驾将对话腾讯自动驾驶业务中心总经理苏奎峰,试图了解腾讯如何用数据要素驱动自动驾驶,三大业务之间高效联动的逻辑。

在浩瀚的赛博空间里,数据是建成海量虚拟建筑的一块块砖瓦。

于自动驾驶而言, 数据以各种形式贯穿研发、生产、测试、运营等生命周期。 与此同时,数据的爆发也呈指数级增长,可以想象,玩家们面临的是如海啸一般涌来的数据。

因此在数据要素使用上,玩家们在两个维度上的能力就显得十分重要:一是数据闭环,没有闭环,数据的有效性就无法验证;二是在数据闭环的基础之上如何实现数据高效运转。

苏奎峰向新智驾表示:自动驾驶的核心竞争力在于数据要素和计算资源的低成本获取和高效利用。 对数据要素进行高效收集和利用,提高数据循环链路的速度,是整个自动驾驶技术迭代的关键点。

为此,腾讯在自动驾驶业务上推出了大数据云平台和仿真测试平台、高精度地图三大业务。 要理解这三大业务平台对数据闭环的高效驱动,需要追溯自动驾驶数据产生的链条。 苏奎峰给新智驾举了一个例子:

由此可见,一个围绕数据采集、场景构建、测试验证、运营更新的数据流通链条得以形成。

苏奎峰也认为,数据要素利用效率的提升是全链条事情,并非一个单点就能解决。

比如从数据采集角度看,知道采集何种数据就十分重要。 在了解白天黑夜、拥堵与非拥堵路段等数据需求之后,可以将动态场景进行自动或手动标定触发,从而提升数据获取效率,避免重复。

而在车辆真正在路上运行之后,也可以根据相应的触发条件,自动筛选一些有用的数据回传到云端;此外,腾讯还会提供数据管理系统,将采集回来的数据进行标签化,快速清洗、筛选、查找需要的数据,进行高效流转。

工具链涵盖从数据采集、数据训练、到算法模块评测(包括模型在环、软件在环、车辆在环、硬件在环),再到实际路测的整个自动驾驶链路。

“这个闭环体系的每个工具的每一个环节,都在提高数据要素的流转和利用效率,以便快速解决问题或加速研发。 ”苏奎峰如此表示。

比如遇到一个Corner case,腾讯能够从数据库里找到相关案例来标注算法训练,或快速采集相应的数据,以保证数据闭环的稳定有效。

目前,针对L2.5级以上的自动驾驶系统,腾讯都能提供云端工具链包括场景分类器等生产工具,同时提供车端与云端的一些标准,用户可以根据自己的算法需求进行选取。

基于对数据闭环和高效运作的理解,腾讯在自动驾驶的目的也呼之欲出:为行业客户提供,能够对数据要素进行高效收集和利用,提高数据循环链路速度的软件与服务,助力产业技术的演进,加速产品落地。

换言之,为行业客户提供自动驾驶云开发的工具链,集数据采集、训练、评测、更新等环节于一身。 这也是苏奎峰一直在强调的腾讯在自动驾驶上的工具属性。

腾讯的大数据云平台、仿真测试平台、高精度地图三大业务,构成了这些工具链的产品形态。

以仿真测试平台为例,可以理解为,腾讯的仿真平台TAD Sim就是一部大型的、针对自动驾驶车辆的角色扮演 游戏 ,结合了专业的 游戏 引擎、工业级车辆动力学模型、虚实一体交通流等技术。

苏奎峰告诉新智驾,仿真测试非常核心的一个功能就是,能够将采集到的数据转换成有用的测试场景。

他强调道:“工具本身要求我们会使用数据,我们也有数据要素储备。 但对仿真来讲,核心功能在于工具而非数据本身。 有了这个工具,车辆采集的数据就可以生产大量的测试场景。 ”

腾讯的TAD Sim仿真平台也能够提供单机版本和云端版本。

单机版能够进行场景编辑,做各种测试验证。 而云端版本则是提供云端高并发的测试能力,包括场景云仿真和虚拟城市型云仿真。

场景云仿真通过大量数据生成几十万甚至上百万的测试场景,在云端大规模并行加速,实现自动驾驶算法的高效验证。

虚拟城市云仿真,则是能够加载一个真实或编辑的城市级高精度地图,实现上百万辆交通流车辆和上千台自动驾驶主车的并行加速,进行7×24小时的不间断测试。

通过不断寻找Corner case、或是将算法处理不好的场景积累下来,丰富自动驾驶测试的场景库。

当然,这背后可以很明显地看到腾讯强大的 游戏 技术支撑的痕迹。

“仿真系统可以把数据链条打碎,然后分阶段验证,同时也会将这个链条集成验证。 这从一定意义上来说更接近于实际的道路测试。 但是还是要强调,实车测试永远是需要的,仿真永远代替不了实车测试。 ”苏奎峰说。

此前,腾讯和国家智能网联 汽车 (长沙)试验区合作了智能网联 汽车 仿真实验室。

利用高精度地图和模拟仿真技术对试验区的地理全貌进行数字化建模,实现在仿真环境下进行安全、高效的智能 汽车 实验。

除此之外,仿真测试平台的还离不开大数据云平台和高精度地图的组合。

苏奎峰表示,云化是未来的一大趋势,不光是数据存放在云端,目前在客户端的很多服务和终端决策也会随着云端趋势的加强而发生改变。

“未来随着5G通讯链路的增强、软件架构和硬件架构升级、以及云端能力的增强,自动驾驶一定会从端的分布逐渐向云端迁移。 ”这也是腾讯构建大数据平台的原因。

此外,腾讯表示,TAD Sim提供地图编辑器,可以直接编辑高精度地图,也可以直接导入生产的实际高精度地图, TAD Sim提供通用的高精度地图接口,能够加载地图中的道路要素信息,也可以导入建筑物、树木等等三维环境信息。

“总体来说,无论车端还是云端,这个闭环是互相嵌套的体系。 最终的呈现形式可以是单独模块,但如果想提高数据的流转效率和开发效率,就需要把这个体系紧密地耦合在一起,才能发挥最大效率。 ”苏奎峰说。

而闭环体系中算法、数据流转的效率越高,自动驾驶的成本也越低,核心竞争力也会更强。

在工具链上有一个完整的闭环,但在商业策略上,腾讯的商业模式是灵活的。

现阶段,“全家桶”式的打包显然不能满足当下主机厂们对产品定制化的需求。

既可单兵作战,也能齐同上阵。 也就是说,三大业务既可以模块化输出,也能集大成者,进行团战。 总而言之,根据行业需求灵活组配甚至一定程度的定制。

与此同时,在三大核心业务能力的加持下,腾讯也一直打磨自己的自动驾驶解决方案。

相比其他玩家,腾讯并不以自动驾驶分级来划分解决方案,而是从用户高频的需求出发,提供场景化的自动驾驶解决方案,分场景、分需求逐步实现自动驾驶落地。

从2019年开始,腾讯就瞄准了高速及泊车两大用户刚需场景,并将针对这两大场景推出自动驾驶量产解决方案。

苏奎峰告诉新智驾,目前,腾讯高精度地图团队已经完成了全国高速及快速路的高精度地图数据采集及绘制工作,为实现高速场景的自动驾驶打好了基础。

至于在商业落地上,苏奎峰表示,由于互联网公司的介入,传统主机厂的固有合作模式会发生变化,尤其是软硬件分离的趋势越来越明显。 “合作的模式和机制都在改变,目前腾讯与主机厂也在通过一些合作来推动模式的升级。 ”

比如在车端的解决方案上,腾讯既可以提供地图定位的算法模块,也可以提供感知、融合算法模块。 但是不同的车厂、不同的传感器配置,仍然需要进行定制化,通用模块很难适配所有车型。

而大数据云平台方面,腾讯和宝马中国联合开发的自动驾驶高性能数据开发平台已经交付使用。

就像 游戏 中辅助角色一样,在“辅助输出”的理念下,腾讯正在用非常灵活的姿态融进主机厂、业内玩家们的自动驾驶生态之中。

正如腾讯CEO马化腾在朋友圈写道:“助力车企开发自己的自动驾驶AI算法和大数据平台”。 腾讯凭借自己对数据闭环高效运作的理解与实践,有望助力车企们早日抵达自动驾驶的未来。

(雷锋网) 雷锋网

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/caijing/9224.html
这家基金公司股权 又拍卖!
再续经典 诸神国度 开启角色预创建! 暑期情怀独一档