越训越傻 Nature封面 AI训AI

作者： 2024年07月27日网红浏览

AI训练AI，可能会让AI变傻？！

来自牛津、剑桥等学校机构的研究人员最新发现，使用合成数据训练，大模型可能会崩溃。其研究成果被选为最新的 Nature封面 。

直接一个： GARBAGE OUT！

要知道，现在绝大部分科技公司的大模型都在用合成数据来缓解“数据荒”。这下无疑是整个行业浇了一波冷水。

研究团队给了这样一个例子。

他们测试了Meta的OPT-125m模型，询问了关于中世纪建筑的相关信息。

每一次微调都是由上一次生成的数据来训练。结果前面几轮回答还好。结果就在第九次，就开始胡说八道……

扯到兔子是什么鬼？！

该论文主要作者表示，他们曾考虑过合成数据可能对大模型造成误差，但未曾预料到模型的恶化速度会如此迅速。

三个误差导致模型崩溃

首先，团队定义了什么是模型崩溃。

模型崩溃是一个退化过程，模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后，新一代模型就容易误解现实。

以此循环往复，一代更比一代差。

按照时间推移，主要分为两种情况：早期模型崩溃和晚期模型崩溃。

早期模型崩溃中，模型开始丢失一些尾部信息。（类似概率分布中一些低概率事件）而在晚期模型崩溃，模型将收敛到同原始分布几乎没有任何相似之处。

这一过程的发生，同模型设计、学习过程和所用数据质量有关。

具体到理论中，主要包括了这三个误差导致大模型同原始模型的偏离。

对语言模型的影响

随后研究人员评估了模型崩溃对语言模型的影响。由于从头开始训练大模型成本非常高，他们选择评估语言模型最常见的设置： 微调设置 。

每个训练周期都从具有最新数据的预训练模型开始。训练数据来自另一个经过微调的预训练模型。

他们用Meta因果语言模型OPT-125m，在wikitext2上进行了微调。

为了从训练好的模型中生成数据，团队使用了five-way波束搜索。他们将训练序列设为 64 个token长度；然后对于训练集中的每个token序列，要求模型预测下一个64个token。

他们会浏览所有原始训练数据集，并生成一个相同大小的人工数据集。 如果模型的误差为0，它就会生成原始的wikitext2数据集。

为了进一步感受区别，他们采用两种不同的设置：一组是除了最开始训练，后续过程没有任何原始训练数据；另一组则是保留10%的原始数据。

结果显示，随着时间推移，模型产生的错误会增加。在模型完全崩溃之前，它还会导致模型遗忘数据集中低概率事件，他们的输出也变得更加同质化。最终也就出现了开头这一现象。

另外在VAE、GMM模型中看到了类似模型崩溃的现象。

来自杜克大学的Emily Wenger教授表示，到目前为止，要缓解这一问题并非易事。

有领先的科技公司已经部署了一项技术，即嵌入“水印”——

标记AI生成的内容，让其在训练数据中排除。但困难在于，这需要科技公司之间的协调，因此不太具有商业可行性。

这样一来，那从之前互联网获取数据的公司，他们训练的模型更能代表现实世界。所以，最开始那一波大模型算是有了先发优势。

对于这一观点，你怎么看呢？

参考链接：[1]https://www.nature.com/articles/d41586-024-02420-7[2]https://www.nature.com/articles/d41586-024-02355-z[3]https://www.nature.com/articles/s41586-024-07566-y

AI人工智能正在改变计算的整个本质

机器学习，特别是深度学习，迫使重新评估芯片和系统的设计方式，这将改变未来几十年的行业方向。从芯片到软件再到系统，计算领域将在未来几年内因机器学习的普及而发生巨大变化。我们可能仍然将这些计算机称为“通用图灵机”，正如我们已有八十年或更长时间。但在实践中，它们将与迄今为止构建和使用的方式不同。任何关心计算机工作的人以及对所有形式的机器学习感兴趣的人都会感兴趣。今年2月，Facebook负责人工智能研究的负责人Yann LeCun在旧金山举行的国际固态电路会议上发表了演讲，该会议是世界上运行时间最长的计算机芯片会议之一。在ISSCC，LeCun明确了计算机技术对人工智能研究的重要性。 LeCun说：“硬件功能和软件工具既激励又限制了AI研究人员想象并将允许自己追求的想法类型，我们所掌握的工具比我们承认的更能影响我们的想法”。不难看出情况是怎样的。从2006年开始，深度学习的兴起不仅是因为大量数据和机器学习中的新技术，例如“辍学”，而且还因为计算能力越来越强。特别是，越来越多地使用来自Nvidia的图形处理单元或“GPU”，导致计算的更大并行化。这使得对比以往更大的网络的培训成为可能。 20世纪80年代提出的“并行分布式处理”的前提，即人工网络的节点同时被训练，最终成为现实。一些人认为，机器学习现在有望接管世界上大部分的计算活动。在2月份的ISSCC期间，LeCun 向ZDNet讲述了计算方向的变化。 LeCun说：“如果你走了五年，未来十年，你会看到计算机花费时间做些什么，大多数情况下，我认为他们会做一些像深度学习这样的事情 - 就计算量而言”。他还指出，深度学习可能无法通过收入占据计算机销售的大部分，但是，“就我们如何每秒花费我们的毫瓦或我们的运营而言，他们将花在神经网络上。深度学习成倍增长随着深度学习成为计算的焦点，它正在推动当今计算机能够做到的界限，在某种程度上推动神经网络进行预测的“推理任务”，但对于训练神经网络更是如此，计算密集型功能。注：据OpenAI称，自2012年以来，深度学习网络对计算的需求每3.5个月翻一番。诸如OpenAI的GPT-2之类的现代神经网络需要并行训练超过十亿个参数或网络权重。作为Facebook的热门机器学习培训库PyTorch的产品经理，5月份告诉ZDNet，“模型越来越大，它们真的非常大，而且培训成本非常高。 ” 如今最大的模型通常不能完全存储在GPU附带的存储器电路中。此外：谷歌表示人工智能的“指数”增长正在改变计算的本质计算周期的需求速度越来越快。根据OpenAI提供的数据，早在2012年创建的令人尊敬的AlexNet图像识别系统在总培训时间内耗费了相当于每秒1000万次浮点运算的“千万亿次浮点运算”，总时间达到一天。但AlphaZero是由谷歌的DeepMind在2016年建立的神经网络，它击败了世界上的国际象棋冠军，并且每秒消耗超过一千天的千万亿次飞越。 AlexNet和AlphaZero之间计算周期的增加使得每3.5个月的计算消耗量翻了一番。这是2016年收集的数据。到目前为止，步伐无疑会增加。计算机芯片危机世界甚至没有佩戴千万亿次筹码，用于深度学习培训的顶级芯片，如Nvidia的Tesla V100，每秒运行112万亿次。因此，你必须运行其中的八天1000天，否则将许多人聚集成一个耗费越来越多能量的系统。更糟糕的是，近年来芯片改进的步伐已经触底。正如加州大学伯克利分校教授大卫帕特森和英国航空公司董事长约翰轩尼诗在今年早些时候的一篇文章中所指出的那样，摩尔定律即每十二至十八个月芯片功率增加一倍的经验法则，已经耗尽了气体。英特尔长期以来一直否认这一点，但数据是帕特森和轩尼诗的一面。正如他们在报告中提到的那样，芯片性能现在每年仅增长3％。这两位作者都认为，这意味着芯片的设计，众所周知，它们的架构必须彻底改变，以便从不会产生性能优势的晶体管中获得更高的性能。（帕特森帮助谷歌创建了“Tensor Processing Unit”芯片，因此他对硬件如何影响机器学习非常了解，反之亦然。）由于处理器的改进停滞不前，但机器学习需求每隔几个月翻一番，就必须付出代价。令人高兴的是，如果以正确的方式看待，机器学习本身可以成为芯片设计的福音。因为机器学习需要很少的遗留代码支持 - 它不必运行Excel或Word或Oracle DB - 并且正如他们所说的，对于芯片设计师，由于其最基本计算的高度重复性，机器学习是一种绿地机会。建造一台新机器卷积神经网络和长期短期记忆网络的核心，深度学习的两个主要支柱，甚至在像谷歌的变形金刚这样的更现代的网络中，大多数计算都是线性代数计算，称为张量数学。最常见的是，将一些输入数据转换为矢量，然后将该矢量乘以神经网络权重矩阵的列，并将所有这些乘法的乘积相加。称为乘法相加，这些计算使用所谓的“乘法 - 累加”电路或“MAC”在计算机中呈现。因此，只需改进MAC并在芯片上创建更多的MAC来增加并行化，就可以立即改善机器学习。主导AI培训的Nvidia和其CPU主导机器学习推理的英特尔都试图调整他们的产品以利用那些原子线性代数函数。 Nvidia为其Tesla GPU添加了“张量核心”，以优化矩阵乘法。英特尔已花费300亿美元收购那些从事机器学习的公司，包括Mobileye，Movidius和Nervana Systems，其中最后一个应该在某个时候导致“Nervana神经网络处理器”，尽管有延迟。到目前为止，这些举措并不能满足机器学习的需求，例如Facebook的LeCun。在2月与ZDNet聊天期间，LeCun认为，“我们需要的是竞争对手，现在，你知道，主导供应商Nvidia”。他还指出，这不是因为Nvidia没有做出好的筹码。这是“因为他们做出了假设，并且拥有一套不同的硬件可以用来做当前GPUS擅长的补充事物，这样做会很不错。另外：为什么人工智能报告如此糟糕？他说，其中一个有缺陷的假设是假设训练神经网络将是一个可以操作的“整齐阵列”的问题。相反，未来的网络可能会使用大量的网络图，其中神经网络的计算图的元素作为指针流式传输到处理器。 LeCun表示，芯片必须进行大量的乘法增加，但对于如何将这些乘法增加呈现给处理器的期望不同。作为TPU芯片贡献者之一的谷歌软件工程师Cliff Young，去年10月在硅谷举行的芯片活动上发表了主题演讲时更直言不讳。 Young说：“很长一段时间，我们都拒绝了，并说英特尔和Nvidia非常擅长构建高性能系统，”“五年前我们超越了这个门槛”。创业公司的崛起在这个漏洞中，新的芯片来自谷歌等人工智能巨头，还有一大批风险投资支持的创业公司。除了谷歌的TPU，现在已经进行了第三次迭代，微软还有一个可编程处理器，一个名为Project Brainwave的“FPGA”，客户可以通过其Azure云服务租用它。亚马逊表示，它将在今年晚些时候推出自己的定制芯片，名为“Inferentia”。当LeCun在2月份与ZDNet谈话时，他提到Facebook有自己的筹码。他指出，像谷歌和Facebook这样拥有大量产品的公司，对你自己的引擎工作是有道理的，这方面有内部活动。创业公司包括Graphcore，一家位于布里斯托尔的五年创业公司，一个位于伦敦西南一个半小时的港口城市; Cornami，Effinix和Flex Logix，所有这些都是由ZDNet描述的和硅谷的洛斯阿尔托斯的s系统公司仍然处于秘密模式。许多这些初创公司都有一个共同点，那就是大大增加用于矩阵乘法的计算机芯片区域的数量，即MAC单元，以便在每个时钟周期内挤出最多的并行化。 Graphcore是所有初创公司中最远的，是第一个真正向客户发送生产芯片的公司。关于它的第一个芯片最引人注目的事情之一是大量的内存。为了纪念世界上第一台数字计算机，Colossus 被称为芯片，面积巨大，面积为806平方毫米。首席技术官Simon Knowles称其为“迄今为止最复杂的处理器芯片”。 Colossus由1,024个被称为“智能处理单元”的独立核心组成，每个核心都可以独立处理矩阵数学。众所周知，每个IPU都有自己的专用内存，256千字节的快速SRAM内存。总共有304兆字节的内存是芯片中最常用的内存。没有人知道芯片上存在如此多的内存会如何改变构建的神经网络的种类。可能是通过访问越来越多的内存，访问速度非常低，更多的神经网络将专注于以新的和有趣的方式重用存储在内存中的值。软件难题对于所有这些芯片的努力，问题当然是由于该公司的“CUDA”编程技术，他们没有为Nvidia建立多年的软件。 Graphcore和其他人的答案将是双重的。一个是用于机器学习的各种编程框架，例如TensorFlow和Pytorch，提供了一种避免芯片本身细节并专注于程序结构的方法。所有进入市场的芯片都支持这些框架，他们的创造者认为这些框架与Nvidia的竞争环境。第二点是Graphcore和其他人正在构建自己的编程技术。他们可以证明他们的专有软件既可以转换框架，也可以智能地将并行计算分配给芯片上的众多MAC单元和向量单元。这就是Graphcore为其“Poplar”软件所做的论证。 Poplar将神经网络的计算图分解为“codelets”，并将每个codelet分配到Colossus的不同核心，以优化并行处理。在过去的二十年中，大数据和快速并行计算成为常态，推动了机器学习，带来了深度学习。下一波计算机硬件和软件可能是关于大量的内存和神经网络，它们是动态构建的，以利用高度并行的芯片架构。未来看起来很有趣。本文翻译自：AI is changing the entire nature of compute（Machine learning, especially deep learning, is forcing a re-evaluation of how chips and systems are designed that will change the direction of the industry for decades to come.）

人工智能未来会取代医生吗？

当然不会目前来看主要还是依赖大数据，说白了就是通过海量数据来学习知识。这种学习方式对数据质量的要求很高。先不说如何把人类的医学知识转化为数据，海量数据收集也是非常困难，尤其是医疗应用中需要考虑很多的corner case。这些是具有丰富经验的医生才能解决的，人工智能很难通过数据学习到。医疗应用比较特殊，对漏检非常敏感，因为会耽误治疗。所以目前好的比较方式是用人工智能系统来做一些简单的筛选，让医生只负责处理疑难杂症，这样可以大幅提高效率。人工智能在医学领域确实有不俗的表现，如临床诊断数据分析，加快药物研发，远程医疗等等。人工智能的学习基于海量的数据学习，确实能够完成许多人类无法完成的事情。但疾病在每个个体上的表现都具有特殊性和差异性，人工智能是否真的能够准确判断患者的病情还有待观望，但不可否认的是，人工智能一定会在临床治疗和医药研发中发挥重要作用看好AI的人会说YES，因为用不了几年AI真的会取代那些平庸的医生，会取代那些Below average（低于平均水平）的医生，但是暂时不会取代那些Above average（高于平均水平）的医生。不看好AI的保守医生会说NO，TA真的是发自内心的，天真地以为AI不会取代任何医生。其实未来最需要AI的是Below average的医生，也是最不理解和最不能接受AI的人。最近AI很火，不仅仅是在投资界很火，在学术界也很火。好的AI公司很容易融到钱，连不咋地的AI公司也拿到钱了，这也难怪一些临床医生说有些AI项目纯粹是圈钱和烧钱，将来肯定进不了临床。但是，好的AI项目还是挺靠谱的，最近Nature自然杂志连续发了好几篇AI完胜各个学科医生的文章。

人工智能在未来能否广泛使用？

人工智能未来发展趋势：

1、从专用智能到通用智能

如何实现从专用智能到通用智能的跨越式发展，即是下一代人工智能发展的必然趋势，也是研究与应用领域的挑战问题。通用智能被认为是人工智能皇冠上面的明珠，是全世界科技巨头竞争的焦点。美国军方也开始规划通用智能的研究，他们认为通用人工智能喝自主武器，是显著优于现在人工智能技术体系发展方向，现有人工智能仅仅是走向通用人工智能的一小步。

2、从机器智能到人机混合智能

人类智能和人工智能各有所长，可以互补。所以人工智能一个非常重要的发展趋势，是From AI（Artificial Intelligence） to AI（Augmented Intelligence），两个AI含义不一样。人类智能和人工智能不是零和博弈，“人+机器”的组合将是人工智能演讲的主流方向，“人机共存”将是人类社会的新常态。

3、从“人工+智能”到自主智能系统

人工采集和标注大样本训练数据，是这些年来深度学习取得成功的一个重要基础或者重要人工基础。比如要让人工智能明白一副图像中哪一块是人、哪一块是草地、哪一块是天空，都要人工标注好，非常费时费力。此外还有人工设计深度神经网络模型、人工设定应用场景、用户需要人工适配智能系统等。所以有人说，目前的人工智能有多少智能，取决于付出多少人工，这话不太精确，但确实指出了问题。下一步发展趋势是怎样以极少人工来获得最大程度的智能。人类看书可学习到知识，机器还做不到，所以一些机构例如谷歌，开始试图创建自动机器学习算法，来降低AI 的人工成本。

4、学科交叉将成为人工智能创新源泉

深度学习知识借鉴了大脑的原理：信息分层，层次化处理。所以，人工智能与脑科学交叉融合非常重要。《Nature》和《Scinece》都有这方面成果报道。比如《Nature》发表了一个研究团队开发的一种自主学习的人工突触，它能提高人工神经网络的学习速度。但大脑到底怎么处理外部视觉信息或者听觉信息的，很大程度还是一个黑箱，这就是脑科学面临的挑战。这两个学科的交叉有巨大创新空间。

5、人工智能产业将蓬勃发展

国际知名咨询公司预测，2016年到2025年人工智能的产业规模几乎直线上升。国务院《新一代人工智能发展规划》提出，2030年人工智能核心产业规模将超过1万亿，带动相关产业规模超过10万亿。这个产业是蓬勃发展的，前景显然是非常大的。

6、人工智能的法律法规将更加健全

大家很关注人工智能可能带来的社会问题和相关伦理问题，联合国还专门成立了人工智能喝机器人中心这样的监察机构。

7、人工智能将成为更多国家的战略选择

一些国家已经把人工智能上升为国家战略，越来越多的国家一定会做出同样举措。包括智利、加拿大、韩国等等。

8、人工智能教育将会全面普及

教育部专门发布了高校人工智能的行动计划。国务院《新一代人工智能发展规划》也指出，要支持开展形式多样的人工智能科普活动。美国科技委员会在《为人工智能的未来做好准备》中提出全民计算机科学与人工智能教育。

这八大宏观发展趋势，既有科学研究层面，也有产业应用层面，也有国家战略和政策法规层面。在科学研究层面特别值得关注的趋势是：从专用到通用，从人工智能到人机融合、混合，学科交叉借鉴脑科学等。

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://m.srwj168.com.cn/keji312/2675.html

三个误差导致模型崩溃

对语言模型的影响

AI人工智能正在改变计算的整个本质

人工智能未来会取代医生吗？

人工智能在未来能否广泛使用？

相关文章