Transformer中的信息流动机制,被最新研究揭开了:
所有层都是必要的吗?中间层在做同样的事吗?层的顺序重要吗?
如果 跳过一些层 ,比如第4层输出接到第6层会怎样。 随机打乱层的顺序 ,比如4-6-5-7又会怎样。
最近一项名为“Transformer Layers as Painters”的研究火了,由来自AI初创公司Sakana AI、Emergence AI的研究团队完成。
他们从Transformer内部工作原理出发,经过一系列实验对以上问题得出了结论。团队表示深入理解这些原理不仅能提高现有模型利用效率,还能帮助改进架构开发新的变体。
谷歌DeepMind研究员、ViT作者Lucas Beyer看过后直接点了个赞:
还有不少学者、工程师也表示强烈推荐。
所以,在这项研究中,研究团队都进行了哪些实验?回答了哪些问题?
实验模型选择和基准
先来看一下实验配置~
实验在 decoder-only 和 encoder-only 模型上进行。
其中decoder-only模型选择的是,主要研究32层、70亿参数的Llama2-7B,扩展实验中也包含13B(40层)和70B(80层)模型。
encoder-only模型选择的是,有24层、3.4亿参数。
研究人员使用这些模型的标准预训练checkpoints。在所有实验中,模型都是冻结的,除BERT的评估中包含一个标准的微调步骤,其它情况未通过微调等方法修改模型参数。
基准测试方面,Llama2使用以下标准基准:ARC(科学考试问题)、HellaSwag(常识问题)、GSM8K(数学题),WinoGrande(常识推理)、LAMBADA(词汇预测)。其中LAMBADA用于测困惑度,与训练期间使用的原始token预测最接近。
对于Llama2的性能评估,提供了基准测试的标准化中位数,将性能从0到1(模型最优性能)进行量化。
对于BERT,采用GLUE基准并遵循其评估指标,包括基准的未标准化平均分。注意,标准的BERT评估包括一个微调步骤,因此对模型进行了适应性调整。在附录中研究人员也展示了一个只有模型头部可以调整的评估结果。
实验动机最初源于这样一个问题:
是否可以将多个层以某种方式合并成一个可能更大的单一层? 假设可能由于训练过程中使用了残差连接,神经网络的中间层 可能使用了一个共同的表征空间。 (对于标准的多层感知机来说不成立,它们之间没有促使共同表征或层间排列一致性的机制)
如果层能共享一个表征空间,将对后续条件计算或向预训练Transformer模型动态添加新知识及下游应用产生重要影响。
关于Transformer的8大问题
层是否使用相同的表征空间?
为确定不同层是否共享相同的表征空间,研究人员检验了Transformer对于 跳过特定层或更改相邻层顺序 的鲁棒性。
例如,在Llama2-7B模型中将输出流从“第4层->第5层->第6层”的正常顺序,改为“第4层->第6层”,跳过第5层,会怎样?
又或者将第4层的输出送到第6层,然后将第6层的输出送到第5层,再送到第7层,会怎样?
如下图所示,实验发现除了最前面的和最末尾的几层, Llama2-7B跳过或改变层序表现出很好的鲁棒性 。
也就是说,中间层共享一个表征空间,中间层与“外层”(最前面的和最末尾的几层)具有独立的表征空间。
为了进一步证实这一假设,研究人员测量了不同模型(Llama2-7B、Llama2-13B和BERT-Large)中不同层的隐藏状态激活之间的平均余弦相似度,并跨基准测试进行了比较。
下图3展示了 所有中间层之间的一致性 。例如,底部第四层的激活与顶部第四层的激活高度相似。对于40层的Llama2-13B,可以看到这些层按相似性可划分成4-5个组:第0层,1-3层,中间层,然后是最后一两层。
这表明模型可能 对“开始”、“中间”和“结束”层具有三个不同的表征空间 。研究人员还发现,“开始层”的数量似乎随着模型总层数的增加而增加。
此外,高余弦相似度可能证明有一个共享的表征空间,低相似度更能表明这些空间不是共享的。而上图3中Llama2-7B的数据与图2所示的性能结果高度一致,这进一步证明了:
至少中间层的表征空间是共享的。
所有层都是必要的吗?
为了进一步验证中间层的表征空间真正共享,研究人员还进行了 层跳过实验 (实验中未进行任何微调)。
具体来说,将第N层的输出直接传递为第N+M层的输入(M>1),从而“跳过”了M-1层,如下图所示。
原本第N+M层仅针对来自第N+M-1层的输入进行训练,那么现在它能否理解第N层的激活?
此类实验中,研究人员正常执行第一层和最后N-1层,而跳过或修改第N+1到第T-N层(T是模型总层数)。
如下图4,在多个基准测试中,Llama2-7B和BERT-Large的 性能均逐渐下降 (图从左至右展示了跳过层数逐渐递增的变化)。这一结果揭示了:
不是所有层都是必要的,至少省略部分中间层不会对整体性能造成严重影响。
中间层是否都执行相同的功能?
如果中间层共享一个共同的表征空间,这些层是否多余?
为了解答该问题,研究人员重新进行了前面的“跳过”实验,但这次不是跳过中间层,而是 用最中心层的权重替换了这些所有中间层的权重 ,如下图所示。
实际上就是在最中心层上循环执行了T-2N+1次,其中T是模型总层数(Llama2-7B为32层,BERT-Large为24层)。
结果基准测试中,随着被替换的层数增加, 模型性能迅速下降 。而且性能下降速度比仅仅跳过某些层要严重得多,这种权重替换极具破坏性。
因此, 中间层各执行不同的功能并非多余,中间层之间共享权重会产生灾难性后果。
层的顺序重要吗?
上面实验表明中间层虽共享表征空间,却在该空间上执行不同操作。那么这些操作顺序重要吗?研究人员进行了两组实验。
首先,将中间层按照与其训练 顺序相反 的顺序(逆序)执行。将第T-N层的输出传递给第T-N-1层,依此类推,直至第N层,然后将该层的输出传至最后的T-N层。
如下图:
第二个实验, 随机排列 中间层顺序,并平均10个随机种子结果。
结果如下图,两种情况模型都呈现出 缓慢的性能下降 。
这里剧透一下下面的一项实验结果,无论是逆序还是随机顺序,模型表现均优于直接跳过这些层,说明即使层在非训练顺序的输入上运行,依然能进行有效输出。
因此,层顺序重要吗?结论是:
层顺序调整对性能有一定影响,随机顺序和逆序都表现出一定的性能退化。
值得注意的是,随机顺序性能优于逆序。可能是因为逆序与训练时的顺序完全相反,而任何随机顺序都至少保持了一些顺序上的连贯性(即某层i总在另一层j之后,其中i>j)。
可以并行运行这些层吗?
如果层的存在,即没有被跳过,比它们执行的顺序更重要,那么是否可以考虑 独立地运行这些层,然后将它们的结果合并 ?如下图所示。
研究人员进行了一个实验,不是跳过第N到第T-N层,而是并行运行这些中间层,然后将它们的平均结果传递到最后的N层。
结果如下图所示,除了GSM8K数学题基准外,所有基准测试都表现出缓慢的性能退化。
有趣的是, 并行层的表现优于跳过层,但不如逆序运行层。
总之,可以并行运行这些层吗?答案是: 可以,数学为主的基准测试除外。
对于某些任务,顺序是否更重要?
大多数变体(包括逆序、跳过和并行)在抽象推理ARC或数学推理GSM8K基准中,表现出最快速的性能下降。
可以解释为逐步推理任务比“语义”任务(如Winogrande或HellaSwag)对层顺序的变化更为敏感。
这是因为推理任务需要结合结构和语义双重信息,而HellaSwag这类任务仅需语义即可完成。
通过实验,研究人员得出结论: 数学和推理任务比“语义”任务更依赖顺序。
迭代对并行层有帮助吗?
如果把Transformer内部运行机制比作是画一幅画的过程:画布(输入)在一些画家之间传递,一些画家专门画鸟,一些则更擅长画轮子……每个画家都依次从另一位画家手里接过画布,然后决定对这幅画进行补充,还是将其直接传递给下一位画家(使用残差连接)。
可以想象,某些层在收到适当的输入时才会对画作进行“补充”。例如,如果“画轮子”的画家先看到汽车的车身,才更有可能画上轮子。
在Transformer中,某些层可能只有在接收到适当的输入时才会对前向传递发挥作用,而不是通过残差连接将输入直接传递出去。
这么来看的话,那么相比于仅执行一次并行层, 迭代执行并行层 应该会提高性能。
研究人员通过将并行层的平均输出回馈到同一层并固定迭代次数来进行测试,如下图:
下图9中,研究人员展示了并行层迭代3次的结果,这种方法显著优于仅执行一次并行层。
唯一的例外是在Llama2-7B的起始层N为15或BERT的起始层N为11时。在这种情况下,循环并行3次的效果相当于仅重复中间层3次,此时的并行层等同于完整模型。
研究人员还用不同的迭代次数重复进行了实验。
下图展示了Llama2-7B的性能随并行层数M和迭代次数的变化而变化。
每个M的最佳迭代次数用红框表示。除了M=29和M=31(几乎并行所有层)外,最佳迭代次数大致与并行层数成线性比例。
因此结论是: 迭代对并行层有帮助,最佳迭代次数与并行层数成比例。
哪些变体对性能损害最小?
最后,研究人员将实验中的所有不同变体在同一图表上进行了比较。
结果显示, 重复单一层 (如上面提到的用同等数量的最中心的层替换中间层) 效果最差 ,性能迅速退化至随机基准线。
迭代并行和随机层顺序性能退化最小 ,其中迭代并行在BERT和Llama2-7B中表现最好。
论文附录中还补充了更多实验结果,感兴趣的家人们可以查看原论文。
论文链接:https://arxiv.org/abs/2407.09298v1参考链接:https://x.com/A_K_Nain/status/1812684597248831912
excel表格中如何打乱各行顺序?
1、首先,我们打开一个excel表格,并任意输入一些数据来展示。 我们需要把表格中各行顺序打乱成随机的。
2、我们可以做一个辅助列。 如图所示,在D列中的D2单元格输入函数:=rand(),然后按回车键。
3、D2单元格出现一个随机数值(介于0~1之间),如图所示,然后我们向下填充格式,造一个辅助列。
4、此时,我们点击菜单栏“开始”下面功能区中的“排序”,选择“降序”(选择升序也可以)。
5、出现警示,我们一定要选择排序依据为“扩展选定区域”,然后点击“排序”。
6、此时,各行顺序就被随机打乱了,如图所示,然后我们把辅助列删除就可以了。
打乱的意思解释
打乱的意思解释如下:
打乱,汉语词语,拼音dǎ luàn,意思是指将整齐的事物有意弄乱或者干扰破坏。
打乱的词语解释是:变乱biànluàn。 战争或暴力行动所造成的混乱。 词性是:名词。 结构是:变(上下结构)乱(左右结构)。 注音是:ㄅ一ㄢ_ㄌㄨㄢ_。 拼音是:biànluàn。
变乱的具体解释是什么呢,我们通过以下几个方面为您介绍:
⒈变更,使紊乱。 引《书·无逸》:“此厥不听,人乃训之,乃变乱先王之正刑,至于小大。 ”元高文秀《遇上皇》第四折:“月仙女杖断一百,因变乱败坏风俗。 ”吴晗《灯下集·宋明间统治阶级的内部矛盾》:“这种变革的要求就被中原的地主阶级斥责为‘轻巧’,斥责为变乱祖宗成法。 ”
⒉由战争或暴力行动所造成的混乱。 引《韩非子·八说》:“法明则内无变乱之患。 ”清吴伟业《矾清湖》诗:“世事有反覆,变乱兴须臾。 ”王西彦《黄昏》:“但灾难的来临总是出人意外的,她遭遇到一场怎样的变乱!”
变乱变更,使紊乱。 《书·无逸》:“此厥不听,人乃训之,乃变乱先王之正刑,至于小大。 ”元高文秀《遇上皇》第四折:“月仙女杖断一百,因变乱败坏风俗。 ”吴晗《灯下集·宋明间统治阶级的内部矛盾》:“这种变革的要求就被中原的地主阶级斥责为‘轻巧’,斥责为变乱祖宗成法。 ”
关于变乱的造句
1、这次火车变乱使这封信担搁了三天。
2、往者王莽篡逆,变乱五常,更始赤眉之时,焚烧长安,残害百姓,民人流亡,百无一在。
3、长安北郊的甘泉宫,病中的天子刘彻已经陆续接到长安城中发生变乱的奏报,虽然尚在病中,但天子仍然深信自己这个敦重好静的太子不会叛乱。
4、因为工程瓷陶很脆且体胀系数小,所以轴承间隙不得太小,以免发生抱轴变乱。
电脑键盘上的字母顺序为什么要打乱?
作为尴尬事件的多发场所,厕所无疑留下了许多人面红耳赤的一幕。 相信许多人都经历过厕所没纸、厕纸擦破等不为人知的尴尬,好在这些厕纸造成的小尴尬还可以轻松解决。
但是由厕纸引起的各种疾病就会给大家带来较大的困扰了,因为厕纸清洁不够彻底,更容易导致细菌的滞留和滋生。 对女性来说危害尤其严重,女性的阴部敏感脆弱,又极容易受到细菌感染,从而为各种妇科疾病埋下祸根。
同时,便后纸擦的对皮肤的摩擦伤害也极大,对于痔疮患者来说更是难以启齿的疼痛。 加之厕纸的卫生程度并不高,长期使用还会引发皮肤过敏发炎等症状。
虽然无法做到完全杜绝厕纸使用,但我们能通过便后水洗的方式做到更彻底的清洁,以此来最大限度的避免传统纸擦方式的潜在危害。
今天小编就为大家推荐一款松下入门级智能马桶盖DL-1309CWS,相较市面上鱼龙混杂的马桶盖,松下的质量和口碑更加可靠。 这款马桶盖是松下经典款智能马桶盖DL-1109CWS的升级版,作为入门级的智能马桶盖来说性价比还是颇高的。
由于每个人便后清洗时长并不完全相同,传统的储热式智能马桶盖往往无法满足所有人的清洗需求。 而这款马桶盖最大的亮点就在于将热水出水时长延长30%,以解决热水消耗过快问题,让用户拥有更畅快的水洗体验。
厕所既是一个私密的场所,又是一个公共场所。 对于共用一个便圈和喷头的情况,许多人会觉得不够卫生。 松下智能马桶盖DL-1309CWS配备的喷头自洁和喷嘴除菌功能,可在每次使用前进行自动清洗,彻底清除喷头上的细菌残留,保证使用时无尘无污。 其便圈表面采用经SIAA认证的抗菌材质,能够自主抑制细菌,抗菌率达到99%以上,有效减少细菌对人体的侵害。
对于没有接触过智能马桶的人来说,对便后水洗的舒适度会有一定的顾虑,觉得不如自己手洗那么温柔。 松下智能马桶盖DL-1309CWS沿用了松下智能马桶盖的脉冲水流,通过空气与水珠的快速交替,形成脉搏跳动般水流,使水洗体验更加轻柔。 在此基础上搭配的温水清洗、移动清洗等多重清洗模式,能满足多人不同的清洗需求。
同时,松下智能马桶盖DL-1309CWS采用微电脑控制技术,能预设多档便圈加温,即使在寒冷的冬天也不用为便圈冰冷发愁。 配合便圈的3D曲面设计,更贴合人体臀部曲线,令坐感舒适度更高。
除此之外,松下洁乐售后服务已升级为贴心的8大免费服务——免费电路改造、免费水管延长、免费拆装移机、免费预约安装、免费远程上门、免费清洗保养、5年质保、1年换新。 无论路程远近均可享受免费上门服务,为用户扫除所有智能马桶盖安装和使用烦恼。
双十一期间购买松下智能马桶盖DL-1309CWS直降681元,安装后晒图评价加送100元京东E卡。更多福利点击链接查看