对话贾佳亚现阶段大模型思考能力有限用来控制机器人比较冒险

作者： 2024年09月06日消费浏览

出品｜搜狐科技

作者｜张雅婷

“具身智能是非常难做的，比自动驾驶还复杂。”

谈及机器人领域当下热门的“具身智能”概念，香港科技大学讲座教授、思谋科技创始人兼董事长贾佳亚近日在与搜狐科技等媒体沟通时表示，大模型是个对话系统，要把它变成一个机械的操作系统，中间的鸿沟非常的大。

贾佳亚是计算机视觉、人工智能领域的顶尖专家，也是原腾讯杰出科学家、优图实验室X-Lab负责人。2019年贾佳亚离开腾讯后成立思谋科技，致力于让工厂更聪明更智能。

在贾佳亚看来，具身智能、人形机器人未来更大可能是应用在家庭生活场景，比如帮用户带小孩、照顾父母。“现在工厂机器人已非常强大，无论是几克重的精密元器件，还是一两吨重的车架，机器人全部能完成，工厂里的机械装置不一定要人形。”

目前大模型发展还处于初期阶段，如果仅仅用在软件层面，体验中的缺陷和不足尚能被接受，但应用于机器人场景，尤其是对良率、精准率等要求严苛的工业场景就很容易造成较大损失。

“大模型的思考上限就是机器人思考上限。”贾佳亚认为，现阶段不如按传统的方式去做机器人，大模型可以用来对话、交互，但用大模型控制机器人是比较冒险的。

而随着生产设备的智能化，工人失业的问题也随之出现。贾佳亚告诉搜狐科技，这是因为人类在生产环节里面能参与的部分越来越少，比如苹果Vision Pro的分辨率是微米级的。如果要检测发光单位是否完整、像素点是否完好，需要依靠高端的光学设备，而非人力。

对于AI人才的培养，贾佳亚表示，除了大厂的人，绝大部分的学生是摸不到大模型的，学校职责就是把大模型构建的知识传递给学生。

“这样才能保证新一批做视觉或者AI的人，在未来5-10年里有机会摸到大模型时知道怎么做，不至于人才断层。”

他向搜狐科技强调，培养人才的基本标准，一个是必须有非常强的编程能力，第二是在与时俱进做最前沿的研究。

以下为对话实录：

媒体：大模型来了之后，对具身智能的影响是什么？主要体现在哪几个方面？

贾佳亚：具身智能是非常难做的，因为大模型是个对话系统，要把它变成一个机械的操作系统，中间的鸿沟非常的大，既关系到大模型本身训练过程，还涉及到工程的优化。

比如机器人想抓个杯子，杯子突然滑了，那需要实时对代码进行调用和更改，改完即刻能上线，所以这其实是比自动驾驶还复杂的。

大的工业场景里面，硬件的东西远比大模型的开发要复杂，需要考虑定位有多准，启停的速度有多快，维修率有多高。

媒体：对于未来的智能工厂来说，机械臂和人形机器人哪个是最优解？

贾佳亚：我跟你说实话，现在工厂机器人已经不用改变了，已经非常强大了，无论是几克重的精密元器件，还是一两吨重的车架，机器人全部能完成，工厂里的机械的装置不一定要人形。所以未来的机器人一定是像科幻小说里，类似于保姆，帮你带小孩、照顾父母。

媒体：现在机械臂距离智能体还有多远？

贾佳亚：大模型的思考上限就是机器人思考上限，大模型本身还存在很多缺陷、幻想，有80%的地方是做对的，20%是做错的。所以还不如按传统的方式去做机器人，就是硬性编程。比如扫地机器人的路线是设定好的，不然家里本来很干净，大模型出错了机器人给你家里弄得很乱，你肯定不会接受了。大模型用上去可以做交互和对话，但是用大模型来控制机器人，是比较冒险的。

媒体：这么多科技巨头在不断更新大模型，但是在很多能力上面也没有超过GPT-4，所以是不是下一次大模型能力上限的提升，还是需要看OpenAI?

贾佳亚：我有个做研究的朋友，他去年年初95%的大模型用的GPT-4，今年35%用的GPT-4，还有30%用的Claude，为啥会转去用其他家的产品呢？因为价格便宜。

大模型在消费级产品里面有一个重要特点是要超过一条线，这条线就是“能用”，这条线上面还有“好用”，能用和好用之间就是价格定价的问题。GPT-3.5已经是超过能用的环节了，大家百花争鸣了，比如有的宣传编程厉害、有的说数学最强，所以百模大战比到最后都是“拼价格”。

媒体：Industry GPT相关的商业化进展怎么样？包括跟业内其他产品，比如说华为的盘古大模型相比有什么差异？

贾佳亚：目前是比较早期的，在整个工业行业应用需要寻找机会的，因为这个领域的需求不是我们定义的，而是客户定义的。客户想去用一种全新的元器件，有公司能造出来，而我们用一个更加AI的方式把它造的更好，类似于一个技术人员帮你观察了生产的流程，同时告诉你流程怎么改进。比如我们会在3-6个月做出产品，别人需要3-6年。我们的收入是逐年在增加，但暂时而言还不是特别大的，因为这个市场还不成熟。

媒体：人最后的结局可能是退出生产一线，这会不会导致大规模失业的问题？

贾佳亚：智能化的器械会出现，是因为人类在整个生产环节里面能参与的部分越来越少。比如苹果Vision Pro的分辨率是微米级的，需要非常高端的光学设备去看每一个发光单元是不是完整的结构，像素点会不会坏。在这种情况下，要保证质量完全不能用人，机器可以完全无休止帮你去工作，但是一个人能够精神紧张工作1~2个小时已经是极限了。

媒体：想问一下目前AI领域的人才缺口大吗？对于这种顶级AI人才的培养，您有什么见解可以跟我们分享？

贾佳亚：AI人才你说缺吗？好像大家都挺缺，但是你看那些大厂随便做个大模型，就招了一批人，很多人以前也不是干大模型的，突然把大模型就造出来了。

其实这种能力强的人就是以前做深度学习的，或者是做视觉的，能理解大模型。真正除了大厂的人，绝大部分的学生是摸不到大模型的，学校职责就是把大模型构建的知识传递给学生。这样才能保证新一批做视觉或者AI的人，在未来5-10年里有机会摸到大模型时起码知道怎么做，不至于人才断层。

我们培养人才的基本标准，一个是必须有非常强的编程能力，第二是在与时俱进做最前沿的研究。

媒体：在技术路线上面，视觉智能未来会有单独的视觉大模型吗，还是直接是多模态？

贾佳亚：我觉得不存在单独的视觉大模型，就像人脱离了语言系统就是猩猩，所有智能体都建立在概念和语言的交流上。视觉单独不是一个特别有用的事情，我自己现在用大模型用得最多的其实还是语言部分，比如我自己没时间看一本书，会把这本书的内容输入大模型里面，让它去帮我提炼核心思想。

但纯语言的发展也一定不是健康的，大模型发展要和视觉、声音结合起来，具身智能未来最重要的就是给大模型提供一个测试的实体，这个东西要能动才有感知，现在的大模型跟世界一点联系都没有，没有任何对世界真实世界的感知。

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://m.srwj168.com.cn/keji312/20351.html

相关文章