越训越离谱 Nature封面 AI训练AI

机器之心报道

机器之心编辑部

我们知道，大模型面临的三大挑战是算法、算力和数据。前两者靠优化升级，后者靠积累。随着技术的不断发展，高质量数据已经逐渐成为最大的瓶颈。

在很多新模型上，人们为了提升模型能力，都采用了使用 AI 生成数据来训练的方式。人们普遍认为，使用合成数据可以显著提升模型质量。

不过，最新的研究认为，使用 AI 生成的数据并不是什么好办法，反而可能会让模型陷入崩溃。

今天发表在学术顶刊《自然》杂志的封面研究认为，如果放任大模型用自动生成的数据训练自己，AI 可能会自我退化，在短短几代内将原始内容迭代成无法挽回的胡言乱语。

这篇由牛津大学等机构提交的研究，强调了由于自我训练导致人工智能模型崩溃（Model Collapse）的风险，论证了原始数据源和仔细数据过滤的必要性。

论文链接：https://www.nature.com/articles/s41586-024-07566-y

哪种模型容易崩溃？

研究认为，当人工智能模型在生成的数据上进行过度训练时，就会发生不可逆转的模型崩溃。

「模型崩溃是指由于对合成数据进行不加区分的训练而导致模型崩溃的现象」，牛津大学研究员、该论文的主要作者 Ilia Shumailov 表示。

根据论文所述，大型语言模型等生成式 AI 工具可能会忽略训练数据集的某些部分，导致模型只对部分数据进行训练。

众所周知，大语言模型（LLM）需要巨量数据进行训练，从而使自身获得解释其中信息并应用于各种用例的能力。LLM 通常是为了理解和生成文本而构建的，但研究小组发现，如果忽略它据称正在阅读并纳入其知识库的大量文本，可能会很快地使 LLM 沦为空壳。

「在模型崩溃的早期阶段，模型首先会失去方差，在少数数据上的表现下降，在模型崩溃的后期阶段，模型则会完全崩溃」，Shumailov 说道。因此，随着模型继续在模型本身生成的越来越不准确和相关的文本上进行训练，这种递归循环会导致模型退化。

模型崩溃，到底是什么

在该论文中，作者发现的模型崩溃效应是一种退化过程，模型生成的数据会污染下一代模型的训练集。模型接受受污染数据的训练，会错误地感知现实，如下图 (a) 所示。

模型崩溃可以分为早期和后期阶段，早期模型会在少数数据上表现下降，后期模型会收敛到一种与原始分布几乎没有相似之处的分布，并且方差通常大大减少。

模型崩溃发生主要是因为下述三个特定误差源在几代模型中复合，并导致与原始模型出现较大偏差：

上述每一项都可能导致模型崩溃变得更糟或更好。更高的逼近能力甚至可以是一把双刃剑，更好的表达能力可以抵消统计噪声，从而很好地逼近真实分布，但它同样会加剧噪声。这通常会产生级联效应，其中个体的不准确性结合起来会导致整体误差增加。

例如，过度拟合密度模型会导致模型错误推断，将高密度区域分配给训练集未覆盖的低密度区域。

值得注意的是，还存在其他类型的误差。例如，计算机在实践中的精度有限。

语言模型中的模型崩溃

作者在文中还评估了模型崩溃对语言模型的影响。模型崩溃在各种机器学习模型中普遍存在。然而，与通常从零开始训练的小模型（如 GMMs 和 VAEs）不同，LLM 需要巨大的成本从头开始训练，因此通常使用预训练模型（如 BERT、RoBERTa 或 GPT-2）初始化，这些模型是在大型文本语料库上训练的。随后，这些模型被微调以适应各种下游任务。

在这篇论文中，作者探讨了当语言模型使用由其他模型生成的数据进行连续微调时会发生什么。本文中涉及的所有实验可以在非微调设置下用更大的语言模型轻松复制。鉴于训练一个中等规模的模型需要的算力也非常可观，作者选择不进行这样的实验，而是专注于更现实的概念验证设置。

需要注意的是，本文描述的语言实验即使在这种情况下也需要几周时间才能完成。作者评估了训练语言模型的最常见设置 —— 微调设置，其中每个训练周期都从一个具有最新数据的预训练模型开始。这里的数据来自另一个经过微调的预训练模型。由于训练被限制在生成与原始预训练模型非常相似的模型，并且这些模型生成的数据点通常只会产生非常小的梯度，因此预期在微调后，模型只会发生适度的变化。作者使用 Meta 通过 Hugging Face 提供的 OPT-125m 因果语言模型进行了微调。

案例研究：教堂和长耳大野兔

研究人员在论文中提供了一个使用文本生成模型 OPT-125m 的示例（使用 wikitext2 数据集微调），该模型的性能与 ChatGPT 的 GPT-3 类似，但需要的算力较少。

研究人员将有关设计 14 世纪教堂塔楼的文本输入到模型中。在第一代文本输出中，该模型主要讨论了在不同教皇统治下建造的建筑物。但到了第九代文本输出，该模型主要讨论了大量的黑尾、白尾、蓝尾、红尾和黄尾长耳大野兔。我们应该注意到的是，其中大多数并不是真正存在的长耳大野兔物种。

大模型输出的内容：从教堂到 100 多种语言，再到野兔。

实验结果表明，即使原数据一直保留，但模型崩溃的现象仍然会发生。随着不断迭代，模型开始忘记真实数据中的信息，并且生成的内容中包含越来越多重复的短语。

网络充斥 AI 内容，「数据源」早已被污染

看到这里你可能会问了：那还不简单，不使用合成数据训练 AI 不就完事了？但实际上，现在能从互联网上获取的「数据」，里面已经不知道有多少是 AI 生成的了，而且我们经常无法把它们和正常内容区分开来。

互联网上充斥着各种内容，这并不是新鲜事。正如研究人员在论文中指出的那样，早在大规模语言模型（LLM）成为公众熟知的话题之前，恶意网站就已经在制造内容，以欺骗搜索算法优先显示他们的网站以获取点击量。随着 OpenAI 的 GPT 系列大模型问世，生成式 AI 已经并将会极大地改变文本和图像内容的生态。

AI 生成文本可比人类说废话快得多，这引发了更大规模的担忧。杜克大学专门研究隐私与安全的计算机科学家艾米丽 - 温格 Emily Wenger 曾在文章中写到相关内容：「尽管 AI 生成的互联网对人类的影响还有待观察，但 Shumailov 等人报告称，在线上大量涌现的 AI 生成内容可能对这些模型本身造成毁灭性的影响。」

「模型崩溃带来的问题之一是对生成式 AI 的公平性构成挑战。崩溃的模型会忽略训练数据中的一些不常见元素，从而无法反映世界的复杂性和细微差别，」Wenger 补充道，「这可能导致少数群体或观点的代表性减少，甚至可能被抹去。」

大型科技公司正在采取一些措施，以减少普通网络用户看到的 AI 生成内容的数量。3 月份，谷歌宣布将调整其算法，把那些看起来是为搜索引擎而非人类搜索者设计的页面的优先级进行降低。然而，这一声明是在 404 Media 关于谷歌新闻推广 AI 生成文章的报道之后发布的。

《自然》杂志封面的这项研究强调，访问原始数据源并在递归训练的模型中仔细过滤数据，有助于保持模型的准确性。

该研究还建议，创建大型语言模型（LLM）的 AI 社区可以协调合作，追踪输入到模型中的信息来源。「否则，随着这种技术的广泛应用，如果无法获得在技术普及之前从互联网上爬取的数据或大量人类生成的数据，训练新的 LLM 版本可能会变得越来越困难」，研究团队总结道。

参考内容：

https://www.nature.com/articles/d41586-024-02355-z

https://gizmodo.com/ai-learning-from-its-own-nonsense-might-just-self-destruct-experts-warn-2000478095

这个困扰了科学家70年的难题，现在被AI解决了

去年年末，人工智能研究实验室DeepMind的AlphaFold在国际蛋白质结构预测竞赛（CASP）上一骑绝尘，首次将蛋白三维结构预测的分数提升至90分。不到8个月后，DeepMind又为生物学界带来了两个重磅消息。 7月15日，他们在《自然》杂志上发布了关于AlphaFold算法的新论文，实现了原子层面上的蛋白质结构精确预测。仅仅一周之后，他们又和欧洲生物信息学研究所（EMBL-EBI）合作发表了一篇《自然》论文。这次，他们想要完成的是一个更大的目标——破解人类蛋白组中所有蛋白质的三维结构。

从人类首次解析出构成蛋白质的氨基酸序列，到如今可以模拟和解析人体蛋白组中绝大多数蛋白的三维结果，科学家已努力了超过70年。 1949年，英国生物化学家弗雷德里克·桑格（Frederick Sanger）通过水解胰岛素，首次确定了组成牛胰岛素的氨基酸序列，这也是人类确定的首个蛋白质的氨基酸序列。这些氨基酸序列是牛胰岛素的一级结构，如果我们只按照这个序列合成胰岛素，得到的产物不会有活性。氨基酸序列需要通过数步折叠过程，形成复杂的3级结构后，才能成为具有功能的蛋白质。

1965年，中国科学家首次解析出胰岛素的精确结构，人工合成出了具有活性的胰岛素。在人类的蛋白组中，胰岛素是一种结构简单的小型蛋白质，它含有两条肽链，有51个氨基酸。对人类等真核生物来说，一个蛋白质中平均含有400多个氨基酸残基，其中绝大部分蛋白质的空间结构远比胰岛素复杂。

人类基因组草图公布后，科学界对蛋白质的研究进入了快车道。经过数十年的努力，研究人员通过解析蛋白质的氨基酸序列、提取纯净和高质量的蛋白质，再加上冷冻电子显微镜的应用，至今已经解析出了超过5万个人源蛋白质的三维结构。无疑，我们获得蛋白三维结构的速度正在不断变快。

不过，实验解析蛋白质也受到诸多限制。由于这一过程过于繁琐，且稍有不慎就无法获得较好的蛋白质空间结构，因此仍有大量人源蛋白质结构有待破解。与此同时，一些科学家开始尝试另一种工具——借助人工智能（AI）技术来预测蛋白的空间结构。

1994年，计算生物学家约翰·莫尔特（John Moult）等人创立了CASP比赛，让AI加入到蛋白质三维结构的研究中。不过在此之后的20多年中，各个AI实验室在这项比赛中的始终缺乏实质性突破。直到DeepMind的加入，彻底改变了这一局面。

2020年，DeepMind开发的一款蛋白质三维结构预测算法“AlphaFold”一举夺得了当年CASP比赛的最高分（GDT分数为90分），比第二名的分数高出了15%。 GDT分数主要用来评估算法预测三维结构中氨基酸的位置与实际空间结构的差距，分数越高，预测越准。当时AlphaFold就像是一枚投在生物学界的炸弹，当时《自然》《科学》等相继发文，强调了这是人工智能的一次重大胜利。

在细胞中，蛋白质的折叠过程需要分子蛋白或辅助蛋白的帮助。而我们能看到的是，一些氨基酸序列通过一系列变化，形成了一个具有三维结构和活性的蛋白质。在蛋白质中，具有相同特性的氨基酸通过特殊的共价键（例如二硫键）聚集到一起，形成一些特定的螺旋结构，比化学键更加微弱的分子间作用力维系着蛋白质的三维结构。

但是，依靠这些理论还远远不足以准确预测蛋白质的三维结构，这也是很多参与CASP比赛的算法分数不高的原因。在今年7月15日一项公布于《自然》的论文中，DeepMind的研究团队详细介绍了AlphaFold成功的原因。这一算法采取了多序列比对和一种新型的神经网络架构，将重点放在一些关键的氨基酸上。此外，这一算法还纳入了结构模块（Structure Module），用于评估预测的蛋白质结构的每个氨基酸残基与其真实位点的差异。 DeepMind的研究团队还强调，AlphaFold是首个在不知道相似蛋白的结构时，也可以在原子层面上精确预测蛋白质结构的算法。

昨日，在发表于《自然》期刊的一项研究中，他们和EMBL-EBI合作利用AlphaFold做出了一项更有突破性和实用性的研究—— 直接对人类蛋白组中98.5%的蛋白质完整三维的结构进行了预测。根据他们的估计，虽然蛋白质资料库（PDB）中公布的人源蛋白质三维结构占到了目前人类蛋白组的35%，但是很多蛋白质的空间结构并不完整。实际上，完整的三维蛋白质结构只占17%。

类似于CASP比赛中的GDT分数，研究人员也为AlphaFold设置了一个可以评估预测可信度的数值—— pLDDT （每个残基位点的可信度测评，per-residue confidence metric）。当pLDDT值大于90，表示对蛋白质中某个氨基酸残基位置的预测具有很高的可信度；当pLDDT值大于70，表明预测结果是基本准确的。

在对人体蛋白质组三维结构的预测中， AlphaFold精确预测了35.7%的氨基酸残基的位点，基本准确地预测了58.0%的氨基酸的位点。在蛋白质水平上，这一算法也能较为准确地预测人类蛋白组中43.8%的蛋白质至少3/4序列的空间结构。在1290个没有没有参考结构的蛋白质中，AlphaFold能较为准确预测每个蛋白中近200个氨基酸残基的空间结构（pLDDT 70）。

在这次实验中，AlphaFold还准确预测出由于许多和药物靶点相关的酶和膜蛋白的三维结构。由于膜蛋白的结构复杂，一直以来，通过实验方法来解析这类蛋白的结构都极具挑战性。除此之外，AlphaFold还能较为准确地预测出此前没有接受过训练或不熟悉的蛋白质的三维结构。

除了人源的蛋白质，他们还利用AlphaFold对其他20种模式生物（包括小鼠、玉米和疟原虫）蛋白组中的蛋白进行了预测。根据《自然》官网的消息，这些预测的蛋白质三维结构数据已通过EMBL-EBI托管的公用数据库免费向公众开放，目前有近36.5万个蛋白质结构已在该数据库中发布，而到今年年底，这一数值有望增长到1.3亿。 DeepMind和EMBL-EBI的研究人员强调，目前这部分工作还只是一个开始。他们想要进一步验证这些预测的结果，更重要的是，将它们应用到迄今为止不可能实现的实验中。

近70年来，解析蛋白质的空间结构一直是一项极具科学意义的难题。如果基因组是一个“指令官”，那么蛋白质就是基因功能的“执行者”，可以说蛋白质几乎参与人体内所有的生理过程和疾病过程。如果我们能掌握蛋白质的精确结构，就像解析了一把精密的锁的内部结构。对于人类来说，也更容易开发出一把甚至多把能打开这些“锁”的钥匙，而这将会改变我们在分子水平上对自身的认知，治疗现今绝大多数的人类疾病。

DeepMind联合创始人兼首席执行官杰米斯·哈萨比斯（Demis Hassabis）认为，这是人工智能系统迄今为止对推进科学发展作出的最大贡献。此外，对于一些AlphaFold无法准确预测的蛋白结构，一些科学家也发表了自己的见解。一部分人认为，在人类等真核生物中，相当一部分蛋白质区域本身就是无序的，这或许是为了与其他的蛋白分子相互作用，也可能还有一些我们还不知道的作用。

值得一提的是，在《自然》于上周发表AlphaFold论文的次日，《科学》杂志也公布了另一项蛋白质预测算法——RoseTTAFold。这个算法由华盛顿大学医学院蛋白质设计研究所和哈佛大学、剑桥大学等机构联合开发。它采用和AlphaFold2不同的深度学习算法，但具有AlphaFold2可媲美的超高准确率，而且速度更快、对计算机处理能力的需求也较少，能在短短的10分钟内计算出一个蛋白的结构。目前，研究人员正在用这一算法研究一些和人类健康直接相关的蛋白质的结构。

这两项算法的出现无疑标志着在结构生物学领域，AI的时代已经到来。

撰文 | 石云雷

审校 | 吴非

参考链接：

https:///articles/d-021--4

索尼赛车AI登上《自然》封面

索尼赛车AI登上《自然》封面，报道称，去年7月，该人工智能首次与《GT赛车》的四名顶尖车手展开了较量，并在当年10月的另一场比赛中战胜了人类车手。索尼赛车AI登上《自然》封面。

索尼赛车AI登上《自然》封面1

“我们追求人工智能，是为了最终更好地了解人类。”

作为这个世代中为数不多的拟真赛车游戏，《GT赛车Sport》的玩家们可能从来没有想过，自己玩的游戏，有天会登上世界顶级科学期刊《自然》（Nature）的封面。

在昨天，索尼公布了一款由其旗下AI部门开发的人工智能技术，同时它也相应地成为了本周《自然》的“封面人物”，而这个人工智能的成就，是在《GT赛车Sport》中击败了全球一流赛车游戏选手们。

Nautre第7896期封面

或者，用“征服”这个词来形容更为合适。在索尼展示的四位AI车手与四名职业赛车玩家的对决中，冠军AI的最高圈速比人类中的最优者快了两秒有余。对一条3.5英里长度的赛道而言，这个优势一如AlphaGo征服围棋。

在近五年的研发时间里，这个由索尼AI部门、SIE还有PDI工作室（也就是《GT赛车》开发商）共同研发的AI完成了这个目标。

索尼为这个AI起名为GT Sophy。 “索菲”是个常见的人名，源自希腊语σοφ α，意为“知识与智慧”。

Sophy和一般的游戏AI有什么区别？

AI在游戏中打败人类，并不是一件稀奇事。 OpenAI在“冥想训练”了成千上万场DOTA2后击败过当时的Ti8冠军OG，谷歌的AlphaStar也曾面对《星际争霸2》的顶级职业选手时表现过碾压态势，而我们每个普通玩家，也都尝过“电脑[疯狂的]”的苦头。

2019年，OpenAI曾经在仅开放部分英雄选用的限制条件下击败过OG

但这些“打败”并非一回事。要明白GTS中的AI车手Sophy意味着什么，首先要明确Sophy和其一个单纯“你跑不过的AI”有什么区别。

对过往赛车游戏里的AI而言，尽管呈现形式都是游戏中非玩家控制的“智能体”，但传统意义上的AI车手通常只是一套预设的行为脚本，并不具备真正意义上的智能。

传统AI的难度设计一般也是依赖“非公平”的方式达成的，比如在赛车游戏中，系统会尽可能削弱甚至消除AI车的物理模拟，让AI车需要处理的环境参数远比玩家简单。

而要塑造更难以击败的AI敌人，也不过是像RTS游戏中的AI通过暗中作弊的方式偷经济暴兵一样，让AI车在不被注意的时刻悄悄加速。

所以对于具备一定水平的玩家而言，赛车游戏里的传统AI在行为逻辑和策略选择上几乎没有值得参考的点，遑论职业赛车游戏选手。

而Sophy则是和AlphaGo一样，通过深度学习算法，逐渐在模拟人类的行为过程中达到变强：学会开车，适应规则，战胜对手。

这种AI带给玩家的，完全是“在公平竞争中被击败”的体验。在被Sophy击败后，一位人类车手给出了这样的评价：“（Sophy）当然很快，但我更觉得这个AI有点超乎了机器的范畴……它像是具备人性，还做出了一些人类玩家从未见过的行为。 ”

这难免再次让人联想到重新改写了人类对围棋理解的AlphaGo。

相对于围棋这种信息透明的高度抽象游戏，玩法维度更多、计算复杂度更高的电子游戏，在加入深度学习AI之后，其实一直很难确保“公平竞技”的概念。

例如在2019年征战《星际争霸2》的AlphaStar，基本没有生产出新的战术创意，只是通过无限学习人类选手的战术，再通过精密的多线操作达成胜利——即便人为限制了AlphaStar的APM，AI完全没有无效操作的高效率也并非人类可比。

这也是为什么在AlphaStar与人类职业选手的对抗记录里，当AI用“三线闪追猎”这样的神仙表演击败波兰星灵选手MaNa后，并不服气的MaNa在赛后采访中说出了“这种情况在同水平的人类对局中不可能出现”这样的话。

AlphaStar用追猎者“逆克制关系”对抗MaNa的不朽者部队

同样，《GT赛车》也是一款与《星际争霸2》具备同样复杂度的拟真赛车游戏。

在专业赛车玩家的眼中，路线、速度、方向，这些最基本的赛车运动要素都可以拆解为无数细小的反应和感受，车辆的重量、轮胎的滑移、路感的反馈……每条弯道的每次过弯，都可能存在一个绝佳的油门开度，只有最顶级的车手可以触摸到那一缕“掌控”的感觉。

在某种意义上来讲，这些“操纵的极限”当然能够被物理学解释，AI能掌握的范围显然要大于人类。所以，Sophy的反应速度被限制在人类的同一水平，索尼为它分别设置了100毫秒、200毫秒和250毫秒的反应时间——而人类运动员在经过练习后对特定刺激的反应速度可以做到150毫秒左右。

无疑，这是一场比AlphaStar更公平的战斗。

Sophy学会了什么

和Sophy为数众多的AI前辈一样，它也是利用神经网络等深度学习算法来进行驾驶技巧的训练。

Sophy在训练环境中会因为不同的行为遭受相应奖励或者惩罚——高速前进是好的，超越前车则更好；相应地，出界或者过弯时候撞墙就是“坏行为”，AI会收获负反馈。

在上千台串联起的PS4组成的矩阵中，Sophy经受了无数次模拟驾驶训练，在上述学习里更新自己对《GT赛车Sport》的认知。从一个不会驾驶的“婴儿”到开上赛道，Sophy花费了数个小时的时间；一两天后，从基础的“外内外”行车线开始，Sophy已经几乎学会了所有常见的赛车运动技巧，超越了95%的人类玩家。

索尼AI部门为Sophy搭建的“训练场”

然而，赛车并不是一个人的游戏。即便Sophy在去年7月份的比赛中，已经可以没有其他赛车的情况下拥有超出顶级人类选手的计时赛成绩，但在真实的多人游戏中，Sophy还需要学会与对手进行对抗上的博弈，理解其他车手的行为逻辑。

因此，索尼AI部门的科研人员对Sophy进行了更多的“加练”，比如面对其他车时如何插线超车、阻挡卡位。到最后，Sophy甚至还被“教育”到能够理解和遵守赛车运动中的比赛礼仪——比如作为慢车时进行让车，同时避免不礼貌的恶意碰撞。

赛车游戏中的AI车，一般即便会尝试躲避与玩家擦碰，其实现方式也只是不自然地闪躲。而Sophy呈现出的“比赛理解”，都是依靠脚本运行的传统赛车AI无法做到的。

到了10月，Sophy已经可以在正式的同场比赛中击败最顶级的人类选手。

索尼邀请的四位人类车手，其中包括GT锦标赛三冠王宫园拓真

比如第一场在Dragon Trail（龙之径）上进行的比赛。作为《GT赛车Sport》的驾驶学校尾关，每个GTS玩家应该都相当熟悉这条赛道（以及DLC中的“汉密尔顿挑战”）。在数万个小时的训练过后，排名第一的Sophy车手已经可以踩着绝对的最优路线保持全程第一。

而在四个Sophy与四位人类车手角逐的第二个比赛日中，AI们的优势进一步扩大了——几乎达成了对顶级人类玩家的碾压。

如果只是在路线的选择和判断上强过人类，用更稳定的过弯来积累圈速优势，这可能还没什么大不了的。

但研究者们认为，Sophy几乎没有利用在用圈速上的绝对优势来甩开对手（也就是AI身为非人类在“硬实力”上更强的部分），反而在对比赛的理解上也超过了人类玩家，比如预判对手路线的情况下进行相应的对抗。

在《自然》论文所举的案例中，两名人类车手试图通过合法阻挡来干扰两个Sophy的首选路线，然而Sophy成功找到了两条不同的轨迹实现了超越，使得人类的阻挡策略无疾而终，Sophy甚至还能想出有效的方式来扰乱后方车辆的超车意图。

Sophy还被证明能够在模拟的萨尔特赛道（也就是著名的“勒芒赛道”）上执行一个经典的高水平动作：快速驶出前车的尾部，增加对前车的阻力，进而超越对手。

更令研究者称奇的是，Sophy还捣鼓出了一些非常规的行为逻辑，听上去就像AlphaGo用出新的定势一样。通常，赛车手接受的教育都是在过弯时“慢进快出”，负载只在两个前轮上。但Sophy并不一定会这么做，它会在转弯时选择性制动，让其中一个后轮也承受负载。

而在现实中，只有最顶级的F1车手，比如汉密尔顿和维斯塔潘，正在尝试使用这种三个轮胎快速进出的技术——但Sophy则完全是在游戏世界中自主学会的。

曾经取得三次GT锦标赛世界冠军的车手宫园拓真在与AI的对抗中落败后说，“Sophy采取了一些人类驾驶员永远不会想到的赛车路线……我认为很多关于驾驶技巧的教科书都会被改写。”

“为了更好地了解人类”

区别于以往出现在电子游戏中的先进AI们（比如AlphaStar），Sophy的研究显然具备更广义、更直接的现实意义。

参与《自然》上这篇论文撰写的斯坦福大学教授 Gerdes就指出，Sophy的成功说明神经网络在自动驾驶软件中的作用可能比现在更大，在未来，这个基于《GT赛车》而生的AI想染会在自动驾驶领域提供更多的帮助。

索尼AI部门的CEO北野宏明也在声明中表示，这项AI研究会给高速运作机器人的研发以及自律型驾驶技术带来更多的新机会。

Sophy项目官网的介绍

但如果我们将目光挪回作为拟真赛车游戏的《GT赛车》本身，Sophy的出现，对大众玩家和职业车手而言同样具备不菲的意义。

正如文章前面所说，在目前市面上大多数拟真赛车游戏中，“传统AI”已经是一个完全不能带给玩家任何乐趣的事物。这种依赖不公平条件达成的人机对抗，与赛车游戏开发者希望带给玩家的驾驶体验是相悖的，人类玩家也无法从中获得任何教益。

在索尼AI部门发布的纪录片中，“GT赛车之父”山内一典就表示，开发无与伦比的AI可能是一项了不起的技术成就，但这对普通玩家来说可能不是什么直白的乐趣。

因此，山内承诺在未来的某个时候，索尼会将Sophy带入到三月份即将发售的《GT赛车7》中。当Sophy能够更加了解赛场上的环境和条件，判断其他车手的水平，一个这样智能又具备风度的AI，就能够在与人类比赛时，为玩家提供更多真实的快乐。

在拟真赛车游戏逐渐“小圈子化”，众多厂商都做不好面对纯新玩家的入门体验的今天，或许一个AI老师的存在，有机会能给虚拟世界中的拟真驾驶带来更多的乐趣，就像《GT赛车4》的宣传片片头所说，“体验汽车生活”。

这可能才是一个基于游戏而生的AI能为玩家带来的最重要的东西——如同山内一典对Sophy项目的评论， “我们不是为了打败人类而制造人工智能——我们追求人工智能，是为了最终更好地了解人类。”

索尼赛车AI登上《自然》封面2

据路透社伦敦2月9日报道，索尼公司周三说，它创造了一个名为“GT索菲”的人工智能（AI）代理，能击败《GT赛车》——PlayStation平台上的模拟赛车游戏——中全球最优秀的车手。

该公司在一份声明中说，为了让“GT索菲”为这款游戏做好准备，索尼公司的不同部门提供了基础人工智能研究成果、超现实真实世界赛车模拟器，以及进行大规模人工智能训练所需的基础设施。

报道称，去年7月，该人工智能首次与《GT赛车》的四名顶尖车手展开了较量，它吸取了这次比赛的经验，并在当年10月的另一场比赛中战胜了人类车手。

这款人工智能的设计团队领导者、索尼人工智能美国公司负责人彼得·沃尔曼说：“我们用了大约20台PlayStation游戏机，同时运行大约10到12天，才训练‘GT索菲’从零开始达到超人类水平。”

报道指出，虽然人工智能曾在国际象棋、麻将和围棋比赛中击败人类，但索尼公司说，掌握赛车驾驶技术的难点在于，许多决定是必须实时做出的。

据报道，索尼的竞争对手微软公司最近斥资近690亿美元收购了动视暴雪公司。微软一直在利用游戏来改进人工智能，其方式是不断为人工智能模型提供新挑战。

报道称，《GT赛车》是一款模拟赛车电子游戏，1997年问世，已售出8000多万套。

索尼希望将学习到的东西应用到其他PlayStation游戏中。该公司说：“有很多游戏可以对人工智能构成不同挑战，我们期待开始解决这些问题。 ”

索尼赛车AI登上《自然》封面3

还记得前几天索尼预告即将公布的重要AI消息吗？最近，索尼正式宣布，其研究人员已经开发出了一款名为“GT Sophy”的AI车手，可以击败人类顶尖的车手获得冠军。

据悉，索尼对于“GT Sophy”使用了异种称为强化学习的方法进行训练。其本质就是不断的试错，将AI扔进一个没有指令的环境中，达到目标即可获得奖励。

索尼的研究人员表示，它们必须谨慎地设计奖励，譬如微调碰撞惩罚，调整各种目标地优先级，从而保证AI地驾驶风格足够激进，但又不只是在路上欺负对手。

在强化学习的帮助下，AI只需要几小时的训练，就已经适应了赛道飙车。并且在一两天内做到了训练数据快过95%的车手。经过小时的总训练，目前AI已经在索尼PS5的《GT赛车》游戏中取得了惊人的成绩，击败顶级人类车手已不是问题。

索尼用AI对三位顶级电子竞技车手进行了测试，没有一个人能够在计时赛中击败AI。而他们也从AI竞赛中学到了新战术，学习AI的路线，掌握更好的入弯时间点。

索尼目前表示，他们正在努力将GT Sophy整合到未来的《GT赛车》游戏中，不过尚没有提供任何具体的时间表。

再结合之前索尼造车的各种消息，这款AI没准还能用在现实世界汽车的自动驾驶技术上，前景可谓十分乐观。

阿尔法狗战胜了阿尔法狗人类是否再也无法阻止AI？

昨天人工智能界又发生了一件大事儿！

开发了AlphaGo的谷歌DeepMind团队在知名期刊《Nature》上发表了一篇论文，宣布其发布了新一代AI程序——AlphaGo Zero，并以100：0的成绩完败前代版本。

我们都知道，AlphaGo Master刚刚在5个月前战胜了人类世界实时排名第一的棋手柯杰，一时间人类如梦中惊醒般，在感叹AI迅猛的成长速度的同时，也对其未来的发展多了一丝隐忧。

而Master的王座地位才刚坐稳没多久，Zero便横空出世成为了新一届的围棋冠军。并且从“萌新”成长为“大佬”仅用了短短40天的时间，那么这40天里究竟发生了什么？Zero又比前代AlphaGo版本进步在何处？

AI脱离人类自学成才

DeepMind团队在论文中表示，他们通过一种新的“强化学习”形式，将更新后的神经网络和搜索算法重组，创造出了AlphaGo Zero。

前代AlphaGo版本都是以人类棋谱作为训练素材，通过分析人类的下棋规律进而预测出对方的落子位置，从而找到自己的最佳落子方式，这往往使AI局限于人类的现有的围棋理论中。

而Zero首次实现了脱离了人类经验的自我学习成长。就如它的名字一样，它以人设规则为限定条件进行优化学习，但是不依靠人类经验知识。通过“左右互搏”，不停地能根据训练结果进一步优化其算法，并自行创造崭新的策略。

近3天时间，Zero便打赢了当初击败李世石的AlphaGo Lee；到第21天，Zero的排位分数已和曾以3：0击败柯洁Master相差无几；经过40天的训练，Zero压倒性战胜了Maste，胜率达到90%。

连棋手柯杰都在微博发出感慨：“一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”

人类是否会受到AI威胁

科学技术的发展是一把双刃剑，AI在给我们带来便利的同时，也有可能对人类的生存产生威胁。包括霍金、马斯克在内的多位科技界名人都曾表示，人类不应低估人工智能发展可能带来的严重后果。

在人机大战中柯杰输给AlphaGo Master之后，AI威胁论又一次成为网友讨论的热点。

人们不禁担忧，在AI发展到足够高级的阶段，是否会反过来统治人类。

若以目前AI的发展速度作为参考，出现这种忧虑也并不能算是杞人忧天。

从这一次AlphaGo Zero的自我学习过程来看，和人类最初发明围棋的过程非常相像——没有前人的经验，完全按照规则来落子。

不过区别是，人类花了上千年才取得的经验成果，AI用短短几天的时间就得到了。

美国的两位棋手对Zero的棋局做出点评：

它的开局和收官与专业棋手的下法并无区别，它按照基本原则，与人类的走法基本一致，这说明人类几千年的智慧结晶，看起来并非全错。

但是，Zero中盘的有些走法却很诡异。

纵观人工智能的发展史，AI仅用不到一百年的时间，就完成了从零到接近人类智慧水平的进化，这已远远超过的人类自身的进化速度。

当有一天，AI的学习能力已经远远高于人类的时候，在这极大的差距下，人类想阻止人工智能的想法已经变得不可能，就像一只蚂蚁永远无法阻止我们。

但我们无须对因此而恐慌，AlphaGo Zero固然已经无人能敌，但它终究也只局限于会下围棋而已。如同汽车远远比人跑的快，却用来作为人类的交通工具。

科技发展的本质是为人类造福，在发展人工智能技术的同时，不要忽视其可能存在的风险，才能让它更好地为我们的生活服务。

真的有那么一天智能人远远超越人类，人类是不是就要面临着悲剧了？