30行代码 500万长文本推理提速8倍!树注意力让GPU越多省得越多

跨GPU的注意力并行, 最高提速8倍 ,支持 512万序列长度 推理。

环注意力(Ring Attention)后继者—— 树注意力 (Tree Attention)来了。

最关键之处在于, 通信步数随设备数量成对数增长,而不是线性增长

换句话说,树注意力的优势随着设备数量增大会更加明显。实验中,在128卡、512万序列长度设置时达到最高8倍加速。

与环注意力相比, 峰值内存占用也能节省不少

相关代码已经开源,基于谷歌jax框架,已和Flash Attention整合,实现起来 只需要30行代码

论文一公布,就被业界评价为“对高推理需求的大型公司很重要”。

这下和黄仁勋的GPU “买的越多,省的越多”论 对上了,英伟达再次赢麻。

注意力机制的能量视角

首先简单回顾一下这次被拿来对比的 环注意力 ,由UC伯克利大牛Pieter Abeel团队提出。

环注意力被认为是让 上一波大模型纷纷扩展到百万上下文的关键 ,从谷歌Gemini 1.5到后来的Llama 3.1系列都用了它的某种变体。

简单来说,环注意力的核心思想是 将长序列分成多个Block,每个GPU处理一个 。在拓扑意义上相当于所有GPU排成一个圆环,将Key-Value信息传下去,同时从上一个GPU接收信息。

只要保证计算时间比数据传输时间长,这个过程就不会造成额外开销。

同时与之前的近似方法不同,环注意力不会损失精度,保持了完整的注意力计算。

最新的 树注意力 ,在分块计算、跨设备并行、保持精度特性的基础上, 提出了一种自注意力的能量函数,通过计算梯度利用树形拓扑优化多GPU间的通信

传统上,人们把注意力看作Query向量与Key向量的相似度匹配,再对Value向量做加权求和。

树注意力团队在Hopfield网络等基于能量的模型相关研究基础上,将注意力解释为一个能量函数对某变量的梯度。

存在一个标量能量函数F,它依赖于Key、Query、Value以及一个辅助变量ζ,而注意力的结果恰好等于F对ζ的梯度在ζ=0处的值。

结合自动微分等技术,从能量和梯度的视角看待自注意力,暗示了 只要能高效计算F就能高效计算自注意力

具体到语言模型中基于KV缓存的解码,能量函数可以表示成:

由于logsumexp和max运算操作都满足结合律,可以按任意顺序进行,而不会影响最终结果。

在此前提下,团队设计了新的并行化算法,先在各GPU上并行计算局部能量函数,再通过树状的Allreduce汇总各处结果,最后用自动微分取梯度,即可得到注意力的输出。

全过程仅需与计算能量函数相同的时间开销,而显存占用也几乎没有额外负担。

树注意力在设计上还 充分利用了GPU集群的两级拓扑特点 ——即同节点内使用高速NVLink,而节点间则依赖IB或以太网等。

相比之下,环形注意力天然不适应这种拓扑,难以将通信与计算很好地重叠,终会被最慢的互联带宽所制约。

最后值得一提的是,虽然理论上单GPU内部也可用类似策略提速,但当前硬件的流式处理器(SM)间通信还是共享内存,优势并不明显。

不过, 英伟达在H100上实验性地支持了SM间点对点的指令 ,这为未来单卡注意力优化带来了新的想象空间。

最被低估的AI实验室之一

树注意力团队主要成员来自,一家新兴的AI创业公司,被评价为 “当前最被低估的AI实验室之一”

Zyphra重点关注边缘AI、端侧AI, 曾发布基于Mamba架构的基础模型Zamba

创始人Krithik Puthalath以及树注意力共同一作Vasudev Shyam、Jonathan Pilault 都有数学和理论物理学术背景

论文地址:https://arxiv.org/abs/2408.04093

参考链接:[1]https://x.com/ryu0000000001/status/1822043300682985642[2]https://www.zyphra.com/post/tree-attention-topology-aware-decoding-for-long-context-attention-on-gpu-clusters


6000价位的轻薄笔记本推荐?

6000价位的轻薄笔记本,推荐HUAWEI MateBook 14。 华为MateBook 14不仅具备强悍的硬件性能,而且外观也非常时尚。 它最高搭载第八代英特尔酷睿处理器i7-8565U,内置57.4Wh电池,大续航且高性价比。 我在使用的过程中最大的感受是:系统运行更流畅,工作更高效。

HUAWEI MateBook 14

16GB内存+512GB,参考价6099元

【外观方面】

外观方面。 MateBook 14笔记本是一款14寸轻薄本,重量只有1.49千克,厚度15.9mm,便携性极佳,但也用上了CNC钻切及喷喷工艺,跟MateBook 16s的质感差不多。

【屏幕方面】

屏幕方面,MateBook 14笔记本是14寸屏幕,2160x1440分辨率,3:2生产力比例,100% sRGB色域,还支持低蓝光及无频闪护眼。

【核心硬件方面】

核心配置方面,HUAWEI MateBook 14最高搭载第八代英特尔酷睿处理器i7-8565U,使系统运行更流畅,工作与学习更高效;采用高性能NVIDIA MX250显卡(TDP 25W),相较于集成显卡,提升达3.5倍的图像及视频处理速度;在此基础上搭载的高性能高速固态硬盘,使创造力更高效。 同时采用最新Intel WLAN模组双天线WiFi,最高速率可达1733Mbps,数据传输快人一步。

【散热方面】

HUAWEI MateBook 14在散热方面也进行了升级,搭载鲨鱼鳍风扇2.0,采用仿鲨鱼鳍设计,并通过智能滤波技术,可实时监控整机温度,让风扇转动更平稳、风噪更小、散热更高效。

【续航方面】

华为MateBook14 配置57.4 Wh的大容量电池。 日常使用中,包括办公、视频、聊天等,续航能力点赞。

HUAWEI MateBook 14和HUAWEI MateBook 13区别:

【外观方面】

HUAWEI MateBook 13:13英寸,菊花Logo,三维尺寸是286mm × 211mm × 14.9mm,重约1.3kg。 HUAWEI MateBook 14:14英寸,“HUAWEI”Logo,三维尺寸是307.5mm×223.8mm×15.9mm,重约1.49kg(集显版)。

Matebook 13 全面屏:屏占比88%,3:2屏幕比例,左右窄边框4.4mm。 Matebook 14 全面屏:屏占比90%,3:2屏幕比例,上左右边框4.9mm,隐藏式摄像头。

【屏幕方面】

屏幕方面,HUAWEI MateBook 14的屏幕升级到了14英寸,和MateBook13相比只增加了一英寸,但是显示效果提升明显,升级不仅体现在屏幕面积上,MateBook14的屏幕具有100%sRGB色域,MateBook13的屏幕没有达到这个标准,因此对于从事设计工作的用户来说是一个比较大的升级。

【续航方面】

HUAWEI MateBook 14电池加大,配备了57.4Wh的大容量电池,满电状态下播放本地1080P视频可达15小时,13的电池容量为42Wh,播放时间为10小时左右,两者之间有接近50%的差距。

从综合数据来看,HUAWEI MateBook 14迭代升级各方面提升很多。

总之,HUAWEI MateBook 14延承了华为笔记本产品的很多特性,虽不陌生,但放在整个14英寸笔记本市场依旧独特。 MateBook 14笔记本是一款14寸轻薄本,便携性极佳,值得推荐。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/keji312/12691.html
国内红外成像龙头将登陆A股! 本周3只新股申购 打新日历
逆行人生 不仅在关注时代现实 徐峥 还有教会你的十条人生道理