用微信扫码二维码
分享至好友和朋友圈
撰文|马雪薇
编审|佩奇
前言
当前,在愈发火热的大模型行业,Scaling Law 被证明依然奏效。
问题是, 一旦由人类生成的高质量数据(如书籍、文章、照片、视频等)用尽,大模型训练又该如何进行 ?
目前, 一个被寄予厚望的方法是“用大模型自己生成的数据来训练自己” 。事实上,如果后代模型的训练数据也从网络中获取,就会不可避免地使用前代模型生成的数据
然而,来自牛津大学和剑桥大学的研究团队及其合作者,却给这一设想“泼了一盆冷水”。
他们给出了这样一个结论: 模型在训练中使用自身生成的内容,会出现不可逆转的缺陷,逐渐忘记真实数据分布,从而导致模型性能下降。
即“模型崩溃”(Model Collapse) 。
相关研究论文以“AI models collapse when trained on recursively generated>
但他们也表示,用一个旧模型生成的数据去训练一个新模型,并非不可行, 但必须对数据进行严格的过滤。
在一篇同期发表的新闻与观点文章中,来自杜克大学的 Emily Wenger 认为,“论文作者没有考虑模型在由其他模型生成的数据上训练时会发生什么,他们专注于模型在自身输出上训练的结果。一个模型在训练其他模型的输出时是否会崩溃还有待观察。因此, 下一个挑战将是要搞清楚模型崩溃发生的机制。 ”
什么是模型崩溃?
本质上,当大模型生成的数据最终污染了后续模型的训练集时,就会发生“模型崩溃”。
像 GMM 和 VAE 这样的小型模型通常是从头开始训练的,而LLM 重新训练的成本非常高,因此通常使用如 BERT4、RoBERTa5 或 GPT-2 这样在大型文本语料库上预训练的模型进行初始化,然后针对各种下游任务进行微调。
那么当语言模型依次使用其他模型生成的数据进行微调时会发生什么?
为此,研究团队使用 OPT-125m 语言模型进行实验,并使用 wikitext2 数据集进行微调。 实验结果表明,无论是否保留原始数据,模型崩溃现象都发生了。 随着迭代次数的增加,模型生成的样本中低困惑度样本的数量开始积累,表明模型开始忘记真实数据分布中的尾部事件。并且,与原始模型相比,后续迭代模型的性能有所下降,表现为困惑度增加。此外,模型生成的数据中包含大量重复的短语。
图 | 受模型崩溃影响的 OPT-125m 模型的文本输出示例-模型在几代之间退化。
想象一下一个生成 AI 模型负责生成狗的图像。AI 模型会倾向于重现训练数据中最常见的狗的品种,因此可能会过多地呈现金毛,而非法斗。如果随后的模型在一个 AI 生成的数据集中进行训练,而这个数据集中过多地呈现了金毛,这个问题就会加剧。经过足够多轮次的过多呈现金毛后,模型将忘记诸如法斗这样的冷门品种的存在,只生成金毛的图像。最终,模型将崩溃,无法生成有意义的内容。
图 | 模型会逐渐忽视训练数据中不常见的元素。
总而言之, 模型会逐渐忘记真实语言中出现的低概率事件 ,例如罕见词汇或短语。这会导致模型生成的内容缺乏多样性,并无法正确地模拟真实世界的复杂性。并且, 模型会逐渐生成与真实世界不符的内容 ,例如错误的日期、地点或事件。这会导致模型生成的内容失去可信度,并无法用于可靠的信息检索或知识问答等任务。此外, 模型会逐渐学习到训练数据中的偏见和歧视 ,并将其反映在生成的内容中。
为何会发生?
模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据,导致模型逐渐失去对真实数据分布的记忆。模型崩溃分为早期和晚期两种情况: 在早期阶段,模型开始失去对低概率事件的信息;到了晚期阶段,模型收敛到一个与原始分布差异很大的分布,通常方差显著减小。
图 | 对学习过程中反馈机制的高层次描述。
随着代数的增加,模型倾向于生成由最初模型更可能生成的样本。同时,后代模型的样本分布尾部变得更长。后代模型开始生成原始模型绝不会生成的样本,即它们开始基于先前模型引入的错误误解现实。尽管在生成数据上训练的模型能够学习部分原始任务,但也会出现错误,如困惑度增加所示。
模型崩溃主要由三种误差累积导致:
1. 统计近似误差:
2. 函数表达能力误差:
3. 函数近似误差:
可以避免吗?
研究团队认为, 用 AI 生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。
首先,在每一代模型的训练数据中,保留一定比例的原始数据,例如 10% 或 20%。这样可以确保模型始终接触到真实世界的样本,避免完全依赖于模型生成的内容。定期对原始数据进行重采样,并将其添加到训练数据中。这样可以保证训练数据始终保持新鲜,并且能够反映真实世界的最新变化。
其次,可以使用多样化的数据。例如,除了模型生成的内容,还应该使用人类产生的数据作为训练数据。 人类数据更加真实可靠,可以帮助模型更好地理解真实世界的复杂性和多样性。 此外,可以使用其他类型的机器学习模型生成的数据作为训练数据,例如强化学习模型或模拟器。这样可以保证训练数据来源的多样性,并避免过度依赖于单一类型的模型。
最后,可以尝试改进学习算法。研究更鲁棒的语言模型训练算法,例如对抗训练、知识蒸馏或终身学习。这些算法可以帮助模型更好地处理训练数据中的噪声和偏差,并提高模型的泛化能力。
尽管这一警示似乎对当前的生成式 AI 技术以及寻求通过它获利的公司来说都是令人担忧的,但是从中长期来看,或许能让人类内容创作者看到更多希望。
|点击关注我 记得标星|
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
网易跟贴
注册 手机发跟贴 登录并发贴网友评论仅供其表达个人看法,并不表明网易立场。
一山一海 自在如风滴少年121 有态度网友06f3UK目前没有跟贴,欢迎你发表观点
2024 必读!AI 是如何在工程学领域渗透和应用的?
返回网易首页 下载网易新闻客户端索尼人工智能打败人类顶尖玩家登上《自然》封面
索尼人工智能打败人类顶尖玩家登上《自然》封面
索尼人工智能打败人类顶尖玩家登上《自然》封面。 索尼公布了一款由其旗下AI部门开发的人工智能技术,同时它也相应地成为了本周《自然》的“封面人物”,索尼人工智能打败人类顶尖玩家登上《自然》封面。
索尼人工智能打败人类顶尖玩家登上《自然》封面1
还记得前几天索尼预告即将公布的重要AI消息吗?最近,索尼正式宣布,其研究人员已经开发出了一款名为“GT Sophy”的AI车手,可以击败人类顶尖的车手获得冠军。
据悉,索尼对于“GT Sophy”使用了异种称为强化学习的方法进行训练。 其本质就是不断的试错,将AI扔进一个没有指令的环境中,达到目标即可获得奖励。
索尼的研究人员表示,它们必须谨慎地设计奖励,譬如微调碰撞惩罚,调整各种目标地优先级,从而保证AI地驾驶风格足够激进,但又不只是在路上欺负对手。
在强化学习的帮助下,AI只需要几小时的训练,就已经适应了赛道飙车。 并且在一两天内做到了训练数据快过95%的车手。 经过小时的总训练,目前AI已经在索尼PS5的《GT赛车》游戏中取得了惊人的成绩,击败顶级人类车手已不是问题。
索尼用AI对三位顶级电子竞技车手进行了测试,没有一个人能够在计时赛中击败AI。 而他们也从AI竞赛中学到了新战术,学习AI的路线,掌握更好的入弯时间点。
索尼目前表示,他们正在努力将GT Sophy整合到未来的《GT赛车》游戏中,不过尚没有提供任何具体的时间表。
再结合之前索尼造车的各种消息,这款AI没准还能用在现实世界汽车的自动驾驶技术上,前景可谓十分乐观。
索尼人工智能打败人类顶尖玩家登上《自然》封面2
“我们追求人工智能,是为了最终更好地了解人类。”
作为这个世代中为数不多的拟真赛车游戏,《GT赛车Sport》的玩家们可能从来没有想过,自己玩的游戏,有天会登上世界顶级科学期刊《自然》(Nature)的封面。
在昨天,索尼公布了一款由其旗下AI部门开发的人工智能技术,同时它也相应地成为了本周《自然》的“封面人物”,而这个人工智能的成就,是在《GT赛车Sport》中击败了全球一流赛车游戏选手们。
Nautre第7896期封面
或者,用“征服”这个词来形容更为合适。 在索尼展示的四位AI车手与四名职业赛车玩家的对决中,冠军AI的最高圈速比人类中的最优者快了两秒有余。 对一条3.5英里长度的赛道而言,这个优势一如AlphaGo征服围棋。
在近五年的研发时间里,这个由索尼AI部门、SIE还有PDI工作室(也就是《GT赛车》开发商)共同研发的AI完成了这个目标。
索尼为这个AI起名为GT Sophy。 “索菲”是个常见的人名,源自希腊语σοφ α,意为“知识与智慧”。
Sophy和一般的游戏AI有什么区别?
AI在游戏中打败人类,并不是一件稀奇事。 OpenAI在“冥想训练”了成千上万场DOTA2后击败过当时的Ti8冠军OG,谷歌的AlphaStar也曾面对《星际争霸2》的顶级职业选手时表现过碾压态势,而我们每个普通玩家,也都尝过“电脑[疯狂的]”的苦头。
2019年,OpenAI曾经在仅开放部分英雄选用的限制条件下击败过OG
但这些“打败”并非一回事。 要明白GTS中的AI车手Sophy意味着什么,首先要明确Sophy和其一个单纯“你跑不过的AI”有什么区别。
对过往赛车游戏里的AI而言,尽管呈现形式都是游戏中非玩家控制的“智能体”,但传统意义上的AI车手通常只是一套预设的行为脚本,并不具备真正意义上的智能。
传统AI的难度设计一般也是依赖“非公平”的方式达成的,比如在赛车游戏中,系统会尽可能削弱甚至消除AI车的物理模拟,让AI车需要处理的环境参数远比玩家简单。
而要塑造更难以击败的AI敌人,也不过是像RTS游戏中的AI通过暗中作弊的方式偷经济暴兵一样,让AI车在不被注意的时刻悄悄加速。
所以对于具备一定水平的玩家而言,赛车游戏里的传统AI在行为逻辑和策略选择上几乎没有值得参考的点,遑论职业赛车游戏选手。
而Sophy则是和AlphaGo一样,通过深度学习算法,逐渐在模拟人类的行为过程中达到变强:学会开车,适应规则,战胜对手。
这种AI带给玩家的,完全是“在公平竞争中被击败”的体验。 在被Sophy击败后,一位人类车手给出了这样的评价:“(Sophy)当然很快,但我更觉得这个AI有点超乎了机器的范畴……它像是具备人性,还做出了一些人类玩家从未见过的行为。 ”
这难免再次让人联想到重新改写了人类对围棋理解的AlphaGo。
相对于围棋这种信息透明的高度抽象游戏,玩法维度更多、计算复杂度更高的电子游戏,在加入深度学习AI之后,其实一直很难确保“公平竞技”的概念。
例如在2019年征战《星际争霸2》的AlphaStar,基本没有生产出新的战术创意,只是通过无限学习人类选手的战术,再通过精密的多线操作达成胜利——即便人为限制了AlphaStar的APM,AI完全没有无效操作的高效率也并非人类可比。
这也是为什么在AlphaStar与人类职业选手的对抗记录里,当AI用“三线闪追猎”这样的神仙表演击败波兰星灵选手MaNa后,并不服气的MaNa在赛后采访中说出了“这种情况在同水平的人类对局中不可能出现”这样的话。
AlphaStar用追猎者“逆克制关系”对抗MaNa的不朽者部队
同样,《GT赛车》也是一款与《星际争霸2》具备同样复杂度的拟真赛车游戏。
在专业赛车玩家的眼中,路线、速度、方向,这些最基本的赛车运动要素都可以拆解为无数细小的反应和感受,车辆的重量、轮胎的滑移、路感的反馈……每条弯道的每次过弯,都可能存在一个绝佳的油门开度,只有最顶级的车手可以触摸到那一缕“掌控”的感觉。
在某种意义上来讲,这些“操纵的极限”当然能够被物理学解释,AI能掌握的范围显然要大于人类。 所以,Sophy的反应速度被限制在人类的同一水平,索尼为它分别设置了100毫秒、200毫秒和250毫秒的反应时间——而人类运动员在经过练习后对特定刺激的反应速度可以做到150毫秒左右。
无疑,这是一场比AlphaStar更公平的战斗。
Sophy学会了什么
和Sophy为数众多的AI前辈一样,它也是利用神经网络等深度学习算法来进行驾驶技巧的训练。
Sophy在训练环境中会因为不同的行为遭受相应奖励或者惩罚——高速前进是好的,超越前车则更好;相应地,出界或者过弯时候撞墙就是“坏行为”,AI会收获负反馈。
在上千台串联起的PS4组成的矩阵中,Sophy经受了无数次模拟驾驶训练,在上述学习里更新自己对《GT赛车Sport》的认知。 从一个不会驾驶的“婴儿”到开上赛道,Sophy花费了数个小时的时间;一两天后,从基础的“外内外”行车线开始,Sophy已经几乎学会了所有常见的赛车运动技巧,超越了95%的人类玩家。
索尼AI部门为Sophy搭建的“训练场”
然而,赛车并不是一个人的游戏。 即便Sophy在去年7月份的比赛中,已经可以没有其他赛车的情况下拥有超出顶级人类选手的计时赛成绩,但在真实的多人游戏中,Sophy还需要学会与对手进行对抗上的博弈,理解其他车手的行为逻辑。
因此,索尼AI部门的科研人员对Sophy进行了更多的“加练”,比如面对其他车时如何插线超车、阻挡卡位。 到最后,Sophy甚至还被“教育”到能够理解和遵守赛车运动中的比赛礼仪——比如作为慢车时进行让车,同时避免不礼貌的恶意碰撞。
赛车游戏中的AI车,一般即便会尝试躲避与玩家擦碰,其实现方式也只是不自然地闪躲。 而Sophy呈现出的“比赛理解”,都是依靠脚本运行的传统赛车AI无法做到的。
到了10月,Sophy已经可以在正式的同场比赛中击败最顶级的人类选手。
索尼邀请的四位人类车手,其中包括GT锦标赛三冠王宫园拓真
比如第一场在Dragon Trail(龙之径)上进行的比赛。 作为《GT赛车Sport》的驾驶学校尾关,每个GTS玩家应该都相当熟悉这条赛道(以及DLC中的“汉密尔顿挑战”)。 在数万个小时的训练过后,排名第一的Sophy车手已经可以踩着绝对的最优路线保持全程第一。
而在四个Sophy与四位人类车手角逐的第二个比赛日中,AI们的优势进一步扩大了——几乎达成了对顶级人类玩家的碾压。
如果只是在路线的选择和判断上强过人类,用更稳定的过弯来积累圈速优势,这可能还没什么大不了的。
但研究者们认为,Sophy几乎没有利用在用圈速上的绝对优势来甩开对手(也就是AI身为非人类在“硬实力”上更强的部分),反而在对比赛的理解上也超过了人类玩家,比如预判对手路线的情况下进行相应的对抗。
在《自然》论文所举的案例中,两名人类车手试图通过合法阻挡来干扰两个Sophy的首选路线,然而Sophy成功找到了两条不同的轨迹实现了超越,使得人类的阻挡策略无疾而终,Sophy甚至还能想出有效的方式来扰乱后方车辆的超车意图。
Sophy还被证明能够在模拟的萨尔特赛道(也就是著名的“勒芒赛道”)上执行一个经典的高水平动作:快速驶出前车的尾部,增加对前车的阻力,进而超越对手。
更令研究者称奇的是,Sophy还捣鼓出了一些非常规的行为逻辑,听上去就像AlphaGo用出新的定势一样。 通常,赛车手接受的教育都是在过弯时“慢进快出”,负载只在两个前轮上。 但Sophy并不一定会这么做,它会在转弯时选择性制动,让其中一个后轮也承受负载。
而在现实中,只有最顶级的F1车手,比如汉密尔顿和维斯塔潘,正在尝试使用这种三个轮胎快速进出的技术——但Sophy则完全是在游戏世界中自主学会的。
曾经取得三次GT锦标赛世界冠军的车手宫园拓真在与AI的对抗中落败后说,“Sophy采取了一些人类驾驶员永远不会想到的赛车路线……我认为很多关于驾驶技巧的教科书都会被改写。”
“为了更好地了解人类”
区别于以往出现在电子游戏中的先进AI们(比如AlphaStar),Sophy的研究显然具备更广义、更直接的现实意义。
参与《自然》上这篇论文撰写的斯坦福大学教授 Gerdes就指出,Sophy的成功说明神经网络在自动驾驶软件中的作用可能比现在更大,在未来,这个基于《GT赛车》而生的AI想染会在自动驾驶领域提供更多的帮助。
索尼AI部门的CEO北野宏明也在声明中表示,这项AI研究会给高速运作机器人的研发以及自律型驾驶技术带来更多的新机会。
Sophy项目官网的介绍
但如果我们将目光挪回作为拟真赛车游戏的《GT赛车》本身,Sophy的出现,对大众玩家和职业车手而言同样具备不菲的意义。
正如文章前面所说,在目前市面上大多数拟真赛车游戏中,“传统AI”已经是一个完全不能带给玩家任何乐趣的事物。 这种依赖不公平条件达成的人机对抗,与赛车游戏开发者希望带给玩家的驾驶体验是相悖的,人类玩家也无法从中获得任何教益。
在索尼AI部门发布的纪录片中,“GT赛车之父”山内一典就表示,开发无与伦比的AI可能是一项了不起的技术成就,但这对普通玩家来说可能不是什么直白的乐趣。
因此,山内承诺在未来的某个时候,索尼会将Sophy带入到三月份即将发售的《GT赛车7》中。 当Sophy能够更加了解赛场上的环境和条件,判断其他车手的水平,一个这样智能又具备风度的AI,就能够在与人类比赛时,为玩家提供更多真实的快乐。
在拟真赛车游戏逐渐“小圈子化”,众多厂商都做不好面对纯新玩家的入门体验的今天,或许一个AI老师的存在,有机会能给虚拟世界中的拟真驾驶带来更多的乐趣,就像《GT赛车4》的宣传片片头所说,“体验汽车生活”。
这可能才是一个基于游戏而生的AI能为玩家带来的最重要的东西——如同山内一典对Sophy项目的评论, “我们不是为了打败人类而制造人工智能——我们追求人工智能,是为了最终更好地了解人类。”
索尼人工智能打败人类顶尖玩家登上《自然》封面3
据路透社伦敦2月9日报道,索尼公司周三说,它创造了一个名为“GT索菲”的人工智能(AI)代理,能击败《GT赛车》——PlayStation平台上的模拟赛车游戏——中全球最优秀的车手。
该公司在一份声明中说,为了让“GT索菲”为这款游戏做好准备,索尼公司的不同部门提供了基础人工智能研究成果、超现实真实世界赛车模拟器,以及进行大规模人工智能训练所需的基础设施。
报道称,去年7月,该人工智能首次与《GT赛车》的四名顶尖车手展开了较量,它吸取了这次比赛的经验,并在当年10月的另一场比赛中战胜了人类车手。
这款人工智能的设计团队领导者、索尼人工智能美国公司负责人彼得·沃尔曼说:“我们用了大约20台PlayStation游戏机,同时运行大约10到12天,才训练‘GT索菲’从零开始达到超人类水平。”
报道指出,虽然人工智能曾在国际象棋、麻将和围棋比赛中击败人类,但索尼公司说,掌握赛车驾驶技术的难点在于,许多决定是必须实时做出的。
据报道,索尼的竞争对手微软公司最近斥资近690亿美元收购了动视暴雪公司。 微软一直在利用游戏来改进人工智能,其方式是不断为人工智能模型提供新挑战。
报道称,《GT赛车》是一款模拟赛车电子游戏,1997年问世,已售出8000多万套。
索尼希望将学习到的东西应用到其他PlayStation游戏中。 该公司说:“有很多游戏可以对人工智能构成不同挑战,我们期待开始解决这些问题。 ”
Nature:人工智能会让化学家失业吗
早上好,不会。 AI虽然具有非常强的计算性能,但是无法模拟各种未知合成中实际发生的现象,它只能根据已有的实验样本来推演一些复杂化学变化公式,不可能亲自代替化学科研人员感受具体怎样,请酌情参考。 同样的,AI可以利用已有数据演算并模拟核武器爆炸相关结果,但是它无法自己亲眼看见更新型核武的制造与使用。
中国科学家在人工智能研究上基础取得的哪些重要成果?
你好:
《自然》(Nature)期刊发表的一篇文章,从论文影响力、核心应用、硬件、人才等方面,详细地对中国当前的AI发展现状进行了分析。
2017年,我国制定了《新一代人工智能发展规划》,描绘了未来十几年我国人工智能发展的宏伟蓝图,确立了 “三步走” 目标: