自主完成任务强化学习训练一两个小时机器人ChatGPT时刻来了?

作者： 2024年10月30日创投浏览

机器之心报道

编辑：Panda、佳琪

最近，AI 的进步有目共睹，现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

近日，UC 伯克利 BAIR 实验室的 Sergey Levine 研究团队提出了一个强化学习框架 HIL-SERL，可直接在现实世界中训练通用的基于视觉的机器人操作策略。HIL-SERL 的表现堪称前所未有的卓越， 仅需 1-2.5 小时的训练就能在所有任务上实现 100% 的成功率。 要知道，基线方法的平均成功率还不到50%。就算有外部干扰，机器人也能取得很好的表现。

论文一作 Jianlan Luo 的推文，他目前正在 UC 伯克利 BAIR 实验室从事博士后研究

团队导师 Sergey Levine 也发了推文宣传这项研究，他是一位非常著名的 AI 和机器人研究科学家，曾是 2021 年发表相关论文最多的研究者，参阅机器之心报道《2021 年 ML 和 NLP 学术统计：谷歌断层第一，强化学习大牛 Sergey Levine 位居榜首》

空口无凭，眼见为实，那就先让机器人来煎个蛋吧。

在主板上安装一块固态硬盘？机器人也能与人类搭配，轻松完成。

插入 USB，问题也不大，看起来比人执行这个操作还流畅，毕竟很多人插 USB 都要对准两三次才能成功。

这么好的效果，不禁让人怀疑，这不会是远程操控吧？Nonono！这些任务都是机器人独立完成的，这次人类的角色也不是站在身后发号施令，而是在它旁边捣乱。

对于没有独立思考能力的机器人来说，任务执行起来那是相当死板。一旦目标物体换了一个位置，它们就会迷失方向。但对于采取 HIL-SERL 框架的机器人，就算你强行夺走它手中这根 USB 线，它依然能自动定位，重新完成任务。

机器人如何变得如此厉害？下面我们就来看看 UC 伯克利的这项研究。

简而言之，他们设计了一个有人类参与的强化学习框架。在此之前，基于强化学习的技术已经为机器人领域带来了一些技术突破，使机器人已经能够熟练地处理一些简单任务。但是，真实世界环境非常动态多变，而且非常复杂，如果能开发出某种基于视觉的通用方法，必定有助于机器人掌握更加复杂的技能。

这正是该团队做出贡献的地方，他们开发的基于视觉的强化学习系统可以让机器人掌握大量不同的机器人技能。

他们将该系统命名为 Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning，即 有人类参与的样本高效型机器人强化学习 ，简称 HIL-SERL。

为了解决优化稳定性问题，他们采用了预训练的视觉主干网络来实现策略学习。

为了处理样本复杂性问题，他们利用了基于 RLPD 的样本高效型离策略强化学习算法，该算法还结合了人工展示和校正。

此外，为了确保策略训练期间的安全性，他们还纳入了一个精心设计的低级控制器。

在训练时，该系统会向人类操作员询问潜在的校正，然后以离策略的方式使用这些校正来更新策略。他们发现，这种有人类参与的校正程序可让策略从错误中学习并提高性能，尤其是对于这项研究中考虑的一些难以从头开始学习的任务。

如图 1 所示，该系统可解决的任务纷繁多样，包括动态翻转平底锅中的物体、从积木塔中抽出一块积木、在两个机器臂之间递交物体以及使用一个或两个机械臂组装复杂的设备，例如计算机主板、宜家置物架、汽车仪表板或正时皮带。

这些任务复杂而精细，有着动态且高维的动作空间。 之前一些研究者甚至认为无法通过强化学习来学习其中一些技能，但 BAIR 这个团队的研究证否了这个说法 。

研究和实验表明，他们的系统能在相当短的时间（1-2.5 小时）内在所有这些任务上都实现几近完美的成功率。

使用同样数量的人类数据（展示和校正的数量）时，他们训练的策略远胜过模仿学习方法 —— 成功率平均超过 101%，周期时间平均快 1.8 倍。

这是个具有重大意义的结果，因为其表明 强化学习确实可以直接在现实世界中，使用实际可行的训练时间学会大量不同的基于视觉的复杂操作策略 。而之前的强化学习方法无法做到这一点。此外，强化学习还能达到超越人类的水平，远远胜过模仿学习和人工设计的控制器。

下面展示了一个超越人类水平的有趣示例：用一根鞭子将一块积木抽打出去，同时保证积木塔整体稳定。很显然，这个任务对大多数人来说都非常困难，但这台机器人通过强化学习掌握了这一技能。

有人类参与的强化学习系统

系统概况

HIL-SERL 系统由三个主要组件组成：actor 过程、learner 过程和位于 learner 过程中的重放缓存。它们都能以分布式的方式运行，如图 2 所示。

actor 过程与环境交互的方式是在机器人上执行当前策略，并将数据发送回重放缓存。

环境采用了模块化设计，允许灵活配置各种设备，包括支持多个摄像头、集成 SpaceMouse 等用于远程操作的输入设备。

为了评估任务是否成功，也需要一个奖励函数，而该奖励函数是使用人类展示离线训练的。

在 actor 过程中，人类可使用 SpaceMouse 从强化学习策略接管机器人的控制权，从而干预机器人的行动。

该团队采用了两种重放缓存，一种是为了存储离线的人类展示（展示缓存），另一种则是为了存储在策略数据（RL 缓存）。

learner 过程会从展示缓存和 RL 缓存平等地采样数据，使用 RLPD 优化策略，并定期将更新后的策略发送到 actor 进程。

详细的系统设计选择这里不再赘述，请访问原论文。

有人类参与的强化学习

此前，强化学习理论 (Jin et al., 2018; 2020; Azar et al., 2012; Kearns and Singh, 1998) 已经证明了智能体能学会的难度和它要处理的信息量密切相关。具体来说，状态 / 动作空间的大小、任务的难度，这些变量不断累加，会导致智能体在找到最优策略时所需的样本成倍增加。最终在超过某个阈值时，所需要的样本量过多，智能体实在学不动了，摆烂了，在现实世界中训练 RL 策略也变得不切实际。

为了解决用强化学习训练真实机器人策略的难题，该团队研究后发现，人类反馈很好用 —— 可以引导学习过程，实现更高效的策略探索。具体来说，就是在训练期间监督机器人，并在有必要时进行干预，纠正其动作。如上图 2 所示。

在该系统的设计中，干预数据会被同时存储在展示缓存和 RL 缓存中，但仅有 RL 缓存带有策略转移（即干预前后的状态和动作）。事实证明，这种方法可以提升策略的训练效率。

这种干预在以下情况下至关重要：

在训练过程的开始阶段，人类会更频繁地干预以提供正确动作，随着策略的改进，频率会逐渐降低。根据该团队的经验，相比于让机器人自行探索，当人类操作员给出具体的纠正措施时，策略改进速度会更快。

研究团队放出了任务训练过程的完整录像

更具体的训练过程请访问原论文。

实验结果

研究团队选择了七个任务来测试 HIL-SERL。这些任务对应着一系列挑战，比如操纵动态物体（在平底锅中翻煎蛋）、精确操作（插 USB 线）、动态和精确操作相结合（在主板移动时插入组件）、操纵柔性物体（组装正时皮带）、包含多个子任务的多阶段任务（组装宜家书架）。

如上表所示，在几乎所有任务上， HIL-SERL 在 1 到 2.5 小时的真实世界训练里达到了 100% 的成功率 。这比基线方法 HG-DAgger 的平均成功率 49.7% 有了显著提高。对于抽积木、插入 RAM 条等，这种更复杂的任务，HIL-SERL 的优势就更为明显了。

上图中显示了采用 HIL-SERL 方法的机械臂在执行任务时被人工干预的次数。为了便于统计，研究团队计算了每次干预的时步数与单次尝试中的总时步数之比（干预率），并统计了 20 次实验的动态平均值。从图表中不难看出，干预率随着训练逐渐降低。这表明 HIL-SERL 策略会不断优化，越来越不需要人类操心了。

同时，人工干预的总时长也大幅度减少。策略不成熟时，机械臂犯错，需要花较长时间纠正，随着 HIL-SERL 不断完善，较短的干预就足以减少错误。相比之下，HG-DAgger 需要更频繁的干预，亦不会因为策略逐渐完善减少犯错的次数。

上图展示了 HIL-SERL 的零样本鲁棒性。这证明新提出的策略能够让机器人灵活地适应即时变化，有效地处理外部干扰。

比如有人故意地松开了齿轮上的皮带，受 HIL-SERL 指导的两个机械臂，一个把皮带放回了原位，另一个配合着把滑轮恢复到了适当的位置。

在两个机械臂对接时，研究人员有意让其中一个机械臂「失误」，放开了手中的物体。在 HIL-SERL 的加持下，两个机械臂自主分工合作，又恢复了搬运物体的平衡。

https://x.com/jianlanluo/status/1850902348010557453

https://x.com/svlevine/status/1850934397090078948

caht gpt全称

1. ChatGPT简介ChatGPT 是由 OpenAI 开发的人工智能聊天机器人程序，于2022年11月推出。该程序采用 GPT-3.5 架构的大型语言模型，并通过强化学习进行训练。目森银前，ChatGPT 主要以文字方式进行交互。除了能通过自然对话方式与人类交互，它还能执行多种复杂的语言任务，包括自动文本生成、自动问答和镇键自动摘要等。例如，在自动文本生成方面，ChatGPT 能根据输入的文本自动生成类似的内容，如剧本、歌曲和企划等。在自动问答方面，它能根据输入的问题自动生成答案。此外，ChatGPT 还具备编写和调试计算机程序的能力。在推广期间，所有人可以免费注册并使用 ChatGPT 与 AI 机器人对话。 ChatGPT 能写出类似真人的文章，因其能给出详细回答和清晰答案而在多个知识领域迅速获得关注。尽管如此，其事实准确性存在问题，这被认为是其一个重大缺陷。 ChatGPT 的推出对金融和白领人力市场产生了巨大影响。 2. ChatGPT 训练数据ChatGPT 利用基于人类反馈的监督学习和强化学习在 GPT-3.5 之上进行微调。这两种方法都通过人类训练员来提高模型性能，通过人类干预增强机器学习效果，以获得更逼真的结果。在监督学习中，模型会被提供一些对话，其中训练师会扮演用户和 AI 助理两种角色。在强化学习阶段，人类训练员会对模型在先御春巧前对话中创建的响应进行评级。这些评级用于创建“奖励模型”，然后使用 PPO 算法进行多次迭代微调。这种策略优化算法比 TRPO 算法更高效。这些模型是在与 Microsoft 的合作中，在 Microsoft Azure 超级计算基础设施上训练的。此外，OpenAI 继续从 ChatGPT 用户那里收集数据，这些数据可用于进一步训练和微调 ChatGPT。用户被允许对他们从 ChatGPT 收到的回复投赞成票或反对票，并在投票时提供额外反馈。 ChatGPT 的训练数据包括各种文档，以及关于互联网、编程语言等知识，如 BBS 和 Python 编程语言。关于 ChatGPT 编写和调试计算机程序的能力的训练，它实际上并不理解编程，与其他基于深度学习的语言模型一样，它只是在获取代码片段之间的统计相关性。

聊天机器人gpt是什么？

Chat GPT 被定义为一种生成语言模型。在实践中，它被理解为经过训练和设计以进行自然对话的人工智能聊天。聊天 GPT 的用途是什么？1.借助 GPT，您可以生成各种风格、主题和语言的连贯且写得很好的文本。此外，还可以生成新闻摘要、产品描述或故事。 2.由于这种聊天，可以分析问题并生成解决方案或问题的答案。可用于在广泛的上下文中为聊天机器人生成适当且一致的响应。 4.它可用于为社交网络生成有吸引力的帖子和消息。 5.使用 GPT，您可以为生产力应用程序生成报告、电子邮件和其他内容。 6.借助聊天 GPT，可以分析大型数据集并从中提取有价值的信息。聊天 GPT 如何运作？正如其首字母缩写词所示，Generative Pre-training Transformer，Chat GPT 是一种基于“transformer”架构的生成语言模型。这些模型能够处理大量文本并学习非常有效地执行自然语言处理任务。特别是 GPT-3 模型，其参数大小为 1750 亿，使其成为有史以来最大的语言模型。为了工作，GPT 需要在大量文本上进行“训练”。例如，GPT-3 模型是在包含超过 800 万个文档和超过 100 亿个单词的文本集上训练的. 从该文本中，该模型学习执行自然语言处理任务并生成连贯、写得很好的文本。一旦模型训练好，GPT 就可以用于执行广泛的任务，正如我们在上一节中看到的那样。基于人类反馈的强化学习被用于训练。最终，通过有监督的微调。人类 AI 培训师提供了他们代表用户和 AI 助手的对话。此外，还向教练们提供了书面建议，帮助他们撰写提案。因此，他们将这个新数据集与转换为对话格式的InstructGPT 数据集混合在一起。对行谈于GPT训练来说，数据标注是非常重要的一环。数据标注可以提供给GPT模型更加准确的训练数据和标准输出结果，从而更好地提升模型性能。具体来说，数据标注可以帮助GPT模型理解自然语言的特点和结构，了解语义、语法、逻辑等方面的规律。数据标注可以对文本进行分词、命名实体识别、句法分析、语义分析等处理，从而让模型能够更好地理解文本，并输出更加准确的结果。此外，数据标注还能够帮助GPT模型识别和处理文本中的情感、主题等要素，提升模型的表现力和应用效果。因此，数据标注对GPT的重要性不可忽视。景联文科技是AI基础数据行业的头部企业，拥有千人从业经验丰富的数据标注团队及丰富的图像和文本标注经验，可为ChatGPT大语言模型提供图像和NLP相关数据采集耐腔和数据标注服务，并根据客户需求迅速调配有相关经验的标注员。景联文科技拥有丰富的专家资源，拥有代码、医学、高等数学、世界常识、翻译、文学创作等领域专家可对垂直领域数据信息进行标注，从而保证数据质量，满足当前标注需求。针对数据定制标注服务，景联文科技拥有先进的数据标注平台与成熟的标注、审核、质检机制，支持计算机视觉：语义分割、矩形框标注、多边形标注、关键点标注、3D立方体标注、2D3D融合标注、目标追踪、属性判别等多类型数据标注；支持自然语言处理：文本清洗、OCR转写、情感分析、词性标注、档亩碰句子编写、意图匹配、文本判断、文本匹配、文本信息抽取、NLU语句泛化、机器翻译等多类型数据标注。景联文科技提供的产品为全链条AI数据服务，从数据采集、清洗、标注、到驻场的全流程、垂直领域数据解决方案一站式AI数据服务，满足了不用应用场景下的各类数据采集标注业务的需要，协助人工智能企业解决整个人工智能链条中数据采集标注环节的相对应问题，推动人工智能在更多地场景下实现落地应用，构建完整的AI数据生态。

chargpt是什么

1、ChatGPT，全称是“ChatGenerativePre-trainedTransformer”，可直译为“作交谈用的生成式预先训练变换器”。它是美国公司OpenAI研发的聊天机器人程序，能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。

2、ChatGPT是OpenAI于11月30日推出的一款聊天机器人，可以免费测试，能根据用户的提示，模仿类似人类的对话。 ChatGPT是OpenAI开发的一个大型预训练语言模型。

3、ChatGPT是OpenAI开发的大型预训练语言模型。这是GPT-3模型的一个变派岩瞎体，经过训练可以在对话中生成类似人类的文本响应。 ChatGPT背后的算法基于Transformer架构，这是一种使用自注意力机制处理输入数据的深度神经网络。

4、ChatGPT的英文全名是：ChatGenerativePre-trainedTransformerChat：表示“聊天”尘空，GPT是GenerativePre-trainedTransformer的缩写，这几个词表示“预训练语言模型”。所以，这个ChatGPT其实是一个会跟你对话的人工智能工具。

5、chatGPT是由OpenAI开发的一个人工智能聊天机器人程序，于2022年11月推出。该程序使用基于GPT-5架构的大型语言模型并通过强化学习进行训练。

6、ChatGPT是是由人工智能研究枣拆实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。