100%打赢人类新手！DeepMind推出媲美人类中级选手的乒乓球机器人

作者： 2024年08月12日金融浏览

撰文 | 马雪薇

机器人也能打乒乓球赛了，而且达到了人类中级选手水平！

据介绍，这一机器人由 Google DeepMind 研究团队打造， 在 29 场机器人与人类的比赛中，赢得了 45%（13/29）的比赛 。值得注意的是，所有人类选手都是该机器人未见过的。

虽然机器人输掉了所有与最顶尖选手的比赛，但它却战胜了 100% 的初学者和 55% 的中级选手。

图｜与专业教练打乒乓球赛。

对此，专业乒乓球教练 Barney J. Reed 表示，“看着机器人与各种水平和风格的选手比赛，真是棒极了。我们的目标是让机器人达到中级水平。我觉得这个机器人甚至超出了我的预期。”

相关研究论文以“Achieving Human Level Competitive Robot Table Tennis”为题，已发表在预印本网站 arXiv 上。

怎么让机器人打乒乓球赛？

当前，乒乓球赛是巴黎奥运会的一大看点，乒乓球选手在比赛中展现出极高的体能水平、高速移动能力、对各式球的精准控制和超人的灵敏度。

也正因如此，从 20 世纪 80 年代开始，研究人员就一直将乒乓球作为机器人的基准，开发了许多乒乓球机器人，并在将球击回对手半场、击中目标位置、扣杀、合作对打以及乒乓球的其他许多关键方面取得了进展。然而，目前还没有机器人与未见过的人类对手进行完整乒乓球比赛。

在这项研究中，通过分层和模块化策略架构、迭代定义任务分布、模拟到模拟适配层、域随机化、实时适应未知对手和硬件部署等技巧，Google DeepMind 团队实现了机器人与人类选手在竞技乒乓球比赛中达到业余人类水平的性能。

图｜方法总概况。

1. 基于技能库的分层和模块化策略架构

低级控制器（LLC） ：该库包含了各种乒乓球技能，例如正手攻球、反手定位、正手发球等。每个 LLC 都是一个独立的策略，专注于特定技能的训练。这些 LLC 通过神经网络学习，并使用 MuJoCo 物理引擎进行模拟训练。

图｜LLC 训练库。

高级控制器（HLC） ：HLC 负责根据当前比赛情况和对手能力选择最合适的 LLC。它由以下几个模块组成：

图 | 一旦球被击中，HLC 首先通过对当前球状态应用风格策略来确定正手或反手（本例展示选择正手），从而决定将球返回给哪个 LLC。

2. 实现零样本模拟到现实的技巧

迭代定义任务分布：该方法从人类-人类比赛数据中收集初始球状态数据，并在模拟环境中训练 LLC 和 HLC。然后将模拟训练生成的数据添加到真实世界数据集中，并重复这个过程，逐步完善训练任务分布。

模拟到模拟适配层：为了解决模拟环境中上下旋球模型参数差异导致的问题，论文提出了两种解决方案：旋转让正和模拟到模拟适配层。旋转让正通过调整 LLC 的训练数据集来解决，而模拟到模拟适配层则使用 FiLM 层学习上下旋球之间的映射关系。

域随机化：在训练过程中，论文对模拟环境中的观察噪声、延迟、球台和球拍阻尼、摩擦等参数进行随机化，以模拟真实世界中的不确定性。

图 | 零样本模拟到真实的转换。

3. 实时适应未知对手

实时跟踪比赛统计数据：HLC 会实时跟踪比赛统计数据，例如机器人对手和对手的得分和失误，并根据这些数据调整 LLC 的偏好值，从而适应对手的变化。

在线学习 LLC 偏好：通过梯度 bandit 算法，HLC 可以在线学习每个 LLC 的偏好值，并根据对手的弱点选择更合适的 LLC。

图｜分级控制。

研究团队收集少量的人与人对打数据来初始化任务条件。然后，使用强化学习（RL）在模拟中训练智能体，并采用多种技术将策略零样本部署到真实硬件上。这个智能体与人类玩家对打，以生成更多的训练任务条件，然后重复训练-部署周期。随着机器人的进步，比赛的标准变得越来越复杂，同时仍然基于现实世界的任务条件。这种混合模拟-现实周期创建了一个自动化的任务课程，使机器人的技能随着时间的推移而提高。