牺牲特斯拉资源叫板OpenAI 马斯克突发新版大模型一手实测来了

作者： 2024年08月14日消费浏览

马斯克旗下xAI大模型，出二代了！

测试版发布，小杯Grok-2 mini已经在平台在线可玩。

马斯克还以谜语人的形式，揭晓了困扰大模型圈一个多月的秘密：

原来Lmsys大模型竞技场上的神秘匿名模型 sus-column-r ，真身就是Grok-2。

sus-column-r在排行榜上积累了1万多人类投票，已经 与GPT-4o的API版并列第三 。

在xAI自己的内部测试中，Grok-2在常识（MMLU、MMLU-Pro）、数学竞赛问题(MATH)、研究生水平科学知识(GPQA)等领域与其他前沿模型相媲美。

另外Grok-2最擅长基于视觉的任务，在视觉数学推理(MathVista)达到SOTA。

不过这个图的排版可就有点心机在里面了：把分数最高的GPT-4o、Claude-3.5-Sonnet放得离自己远一些。

光看分数还是抽象，下面就进入一手实测环节。

一手实测Grok-2

如果你是/推特平台付费用户，可以直接进入Grok频道试玩。不花钱的话也可以到Lmsys大模型竞技场选择sus-column-r试玩。

而且 付费用户反倒只能玩到小杯mini版 ，免费用户能玩大杯，也是很厚到了

由于Grok-2可以访问上的实时数据， 可以直接让他总结当天的新闻 ，开启趣味模式的话还可以附赠吐槽。

付费版本还 接入了最新开源AI生图模型Flux.1 ，会把中文提示词翻译成英文理解。

点进主页上的“安利一个奇幻游戏”问题示例，可以看到它先推荐了《博德之门3》，并从剧情、人物自定义、游戏机制、世界塑造、幽默元素和玩家社区几个角度做点评，很好的把握了游戏的亮点。

此时可以直接换中文继续提问。

还在最后附带了网友的帖子，可以点进去参与讨论，与整个平台的功能整合已经到位了。

不过由于上只有mini版模型，接下来上强度测试我们移步大模型竞技场，还可以与GPT-4o来一场捉对pk。

在最近流行的智商检测问题 “9.9和9.11哪个大” 上，Grok-2（sus-column-r）表现碾压ChatGPT最新版本。

不过另一项流行测试 “strawberry中有几个r” 问题上，两者都还是没能通过。（多试几次两者都有小概率答对）。

更严肃一些的陷阱题 “以下哪支蜡烛是最先被吹灭的” 中，Grok-2比ChatGPT稍有进步。

考点是最先被吹灭的蜡烛剩下的部分更长（正确答案3），ChatGPT错误的理解成最短的，Grok-2思路是对的但是数哪个最长没数对。

对于经典的大模型弱点“逆转诅咒”问题，两者似乎都以某种方式克服了。不仅能正着回答“汤姆克鲁斯的母亲是谁”，也能倒过来回答数据出现频率更少的“Mary Lee Pfeiffer的儿子是汤姆克鲁斯”。

（当然不排除只是成为经典问题之后，相关数据更多了。）

马斯克大模型升级，牺牲特斯拉换的

测试先告一段落，可以看出Grok-2对比上一代Grok-1.5有了很大进步。

背后马斯克可是，花费了大量资源和人力。

比如有新加入xAI的研究员表示，能用 10万卡集群 做研究，比起在学校里可怜的资源爽太多了。

但是有一群人可不满意了：特斯拉股东。

根据华尔街日报消息， 马斯克持续把人才、数据和GPU资源从特斯拉向xAI转移 。

目前为止，xAI已经雇佣了至少11名曾在特斯拉工作过的员工，其中六名直接在Autopilot团队工作过。

原本为特斯拉保留的GPU订单，马斯克也要求英伟达优先供应xAI。

马斯克还公开谈论了特斯拉收集的大量视觉数据，他表示这些数据可以作为训练xAI模型的资源。

至少三位特斯拉股东因为这事把马斯克给告了，声称将资源转移到xAI损害了特斯拉投资者的利益。

目前案件正在特拉华州法院审理。

马斯克九大公司排名

马斯克九大公司排名：特斯拉、SpaceX、SolarCity、StarLink、Neuralink、Modelπ手机、Hyperloop、BoringCompany、Openai等。

1、特斯拉

特斯拉是一家通过电能和太阳能改变人，出行方式的汽车公司。仅仅几年就超过丰田成为全球最大的车企，特斯拉牢牢占据新能源车销售冠军的位置。

SpaceX是全球唯一一家私人控股运营的火箭发射公司，主要产品是猎鹰1~9号可重复使用的运载火箭。公司运营13年以来，发射火箭的次数超过美国航天局NASA，几乎是每隔几天就会有火箭升空。

3、SolarCity

SolarCity公司于2008年10月成立，专门发展家用光伏发电项目的公司，位于加州福斯特城，其主要研发方向是光伏发电。

4、StarLink

星链致力于卫星系统的部署应用，计划在2019年至2024年间在太空搭建，由约1.2万颗卫星组成的“星链”网络。其中1584颗将部署在地球上空550千米处的近地轨道，并从2020年开始工作。

5、Neuralink

Neuralink致力于生物，物理交互研究，其产品构想就是“脑机接口”。这同样是一项伟大且极具想象力的技术，如果研发成功，届时人类将不用再花费大量的时间学习，甚至连大学都不用考了。

6、Modelπ手机

11月12日，有国外网友上传了特斯拉手机的宣传，展示视频。手机命名为“Modelπ”，极具特斯拉风格。

7、Hyperloop

Hyperloop一家轨道交通公司，其研究方向是封闭式真空磁悬浮列车。其研发进度，已经快进入试运行阶段。理想状态下，磁悬浮列车会像在水管里高速运行的胶囊一样超最高速行驶。

8、BoringCompany

BoringCompany公司主要研发方向是做地下交通轨道，2021年2月和5月，已在拉斯维加斯会议中心地下挖了两段隧道，作为整套地下人员运输系统的一部分。

Openai成立于2015年，创立之初便将自己定位为“非营利组织”，目标是以安全的方式实现通用人工智能。使全人类平等受益，而不是为公司的股东创造利润。且是一家开放性的研究公司，所有研究成果将会全部公布并可免费使用。

「大模型+大算力」加持，通用人工智能和智能驾驶双向奔赴

开年以来 ChatGPT、GPT-4 的相继面世再度掀起计算机科学领域通用人工智能（AGI）研究热潮，也不断刷新我们对 AI 的认知。

作为具有人类水平表现的大型多模态模型，GPT-4 被视为迈向 AGI 的重要一步，标志着创新范式的深度变革和生产力的重新定义，也必将带来更多元的产品迁移。

截至目前，全球已经有超百万家初创公司声称使用这一秘密武器来创造新产品，而这些产品将彻底改变从法律到股票交易，从游戏到医疗诊断的近乎一切领域。

尽管其中很多是营销泡沫，但与所有技术突破一样，总会存在炒作周期和意想不到的远期效果。

事实上在另一边，进入 2023 年智能汽车领域同样十分热闹。

智能化已然成为上海车展全场关注的最大焦点，除了激光雷达等关键传感器的单点式突破，各大巨头也纷纷展示智能驾驶全产品矩阵，城市场景辅助驾驶量产落地加速推进。

更加值得注意的是，BEV、大模型、超算中心等计算机热词正在与自动驾驶、行泊一体、城市 NOA 等智驾焦点火速排列组合，颇有相互交融、双向奔赴的味道。

在这背后，一方面是近年来智驾、智舱持续升级对 AI 在汽车场景落地的数据、算法、算力不断提出更高要求，另一方面，AGI 的重大突破也已将触角伸向智能汽车，将其视为实现闭环应用的重要场景，很多企业布局已经相当高调。

日前，商汤科技 SenseTime 举办技术交流日活动，分享了以「大模型+大算力」推进 AGI 发展的战略布局，并公布该战略下的「日日新 SenseNova」大模型体系。

在「大模型+大算力」加持下，本次上海车展商汤绝影驾、舱、云一体产品体系已全栈亮相，近 30 款合作量产车型集中展出，商汤也再度分享了智能汽车时代的 AGI 落地新思考。

本次上海车展亮相的部分绝影合作车型展示

算法：AI 正式步入大模型时代

如商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚所言，「AGI 催生了新的研究范式，即基于一个强大的多模态基模型，通过强化学习和人类反馈不断解锁基模型新的能力，从而更高效地解决海量的开放式任务。」

通用大模型并非为自动驾驶而生，或为满足自动驾驶的特定任务需求而设计。但智能驾驶开发的诸多新需求已在推动算法从专用小模型向通用大模型快速演进。

首先是应对海量数据处理和 Corner Case 问题的迫切需求。

对于感知系统低频出现但至关重要的小目标及带来的潜在安全隐患，算法开发需要面对海量数据，传统的 AI 小模型将难以同时处理大数据量和高复杂度的任务。通用大模型则可用在长尾目标的初筛过程，并叠加语料文字处理得到很好的效果。

再比如智驾算法开发对自动化数据标注、降低人工成本的诉求。相比于人工标注，通用大模型将自动化对海量数据完成标注任务，大幅降低标注数据获取的时间成本和本身的金钱成本，从而缩短研发周期、提升成本效益。

处于类似的考量，近年来国内外巨头企业已围绕大模型纷纷展开各自智驾布局。

继 Google 于 2017 年提出将 Transformer 结构应用在 CV 领域图像分类，大模型已在 GPT-2、GPT-3、BERT 等当中不断证明实力，特斯拉率先站台 Transformer 大模型征战图像视觉。

国内企业也紧随其后：

毫末智行已宣布自动驾驶认知大模型正式升级为 DriveGPT，网络表示利用大模型来提升自动驾驶感知能力并将大模型运用到数据挖掘，华为也已宣布加入大模型争霸赛，自研「盘古」即将对外上线。

作为行业领先的人工智能公司，商汤在大模型领域可谓乘风破浪，过去一两年则全面将大模型能力在各业务线 20 多个场景落地，包括智能驾驶。

商汤「日日新 SenseNova」大模型体系背后是大模型研发中深厚的积累。商汤有自己的全栈大模型研发体系，其中就包括针对大模型的底层训练及实施过程中的各种系统性优化。

例如，商汤近期向社区发布的用于真实感知、重建和生成的多模态的数据集 OmniObject3D 中包含 190 类 6000 个物体，数据质量非常高。

再比如，商汤在 2019 年就已首次发布 10 亿参数的视觉大模型，到 2022 年参数规模已达到 320 亿，这也是世界上迄今为止最大的视觉模型。

此外，商汤也在智驾领域持续展示大模型能力。 2021 年开发的 BEV 感知算法在 Waymo 挑战赛以绝对优势取得冠军，2021 年 BEV Former 的 Transformer 结构至今仍是行业最有影响力的 BEV 工作，今年开发的 UniAD 是业内首个感知决策一体化的端到端自动驾驶解决方案。

在技术实力的另一端是量产进度。商汤也给出了自己的智能驾驶量产公式：

自动驾驶技术能力=场景数据 x 数据获取效率 x 数据利用效率² =场景数据 x 数据获取效率 x 先进算法 x 先进算力。

而先进的算法大模型不仅将通过跨行业数据汇聚提升驾驶场景数据资源，通过数据闭环开发模式和自动数据标注提升数据获取效率，更将大幅提升感知精度和感知丰富度进而成倍提升数据利用效率。

依托原创 AI 算法和模型积累，商汤领先的 BEV 感知算法推进国内首批量产应用，并采用 Domain Adaption 算法有效解决跨域泛化问题。商汤首创的自动驾驶 GOP 感知体系将目标数据获取的人力成本降低 94%，实现低成本的车端模型开发，目前也已投入量产应用。

算力：智能汽车时代的重要基础设施

随电子电气架构技术由分布式不断向集中式演进，大算力芯片成为新型电子电气架构实现的物理基础。

近年来车端芯片算力发展突飞猛进，如英伟达规划中的 Atlan 单颗芯片算力超 1000TOPS，THOR 单颗算力超 2000TOPS，将大幅提升单车感知决策能力。

而在云端，AGI 在自动驾驶、网联等场景的泛化应用将提出比车端指数级更高的算力要求——从数据标注到模型训练，从场景仿真到算法迭代。

算力将是智能汽车时代的新型基础设施。

在此背景下，近年来主流企业纷纷开启双线并行探索，车端自研算力平台，云端建立超算中心。而进入大模型时代后，数据量随着多模态的引入也将大规模增长，因此必然也会导致 AGI 对算力需求的剧增。

可以看到，英伟达车端云端同步布局并将提供端到端的全栈式 AI 加速计算解决方案，特斯拉也早在 2021 年 8 月发布自研云端超算中心 Dojo。

据近期报道，埃隆·马斯克也将成立一家人工智能公司来与 OpenAI 竞争，已购买数千个英伟达 GPU 并一直招募 AI 研究人员和工程师。

国内方面，吉利、蔚来、特斯拉、毫末智行、小鹏等企业也已跟进布局云端算力集群，投入巨大以提升智驾开发算力储备。

对于商汤来说，如果说大模型将是支撑智能驾驶的上层建筑，那么大算力就是数字基座。

商汤科技董事长兼 CEO 徐立表示，目前大模型对基础算力、基础设施的需求非常旺盛，基础算力对并行效率的要求也非常高，但真正好用的基础设施其实十分稀缺。

出于这一原因，商汤历时五年自建了业界领先的 AI 大装置 SenseCore，完成 2.7 万块 GPU 的部署并实现 5.0 exa FLOPS 的算力输出能力，是亚洲目前最大的智能计算平台之一，可同步支持 20 个千亿规模参数量的超大模型同时训练。

位于上海临港的 AIDC 人工智能计算中心将为智能汽车的数据存储、标注、脱敏、仿真训练、算法迭代到部署的闭环提供算力支持，打通基于数据驱动的算法生产全流程，加速高级别智能驾驶技术的 AI 模型生产和持续迭代，推动实现规模化量产。

在 AIDC 的基础上，AI 大装置也将提供支持大模型生产的一系列服务：

如此规模的算力设施即使特斯拉同期也尚难以望其项背，也必将推动大模型的高效闭环。

「大模型+大算力」推动智能汽车行业整体进程

汽车行业正在面临百年未有之大变革。尽管此次以「大模型+大算力」推进 AGI 发展是商汤提出的战略布局，但事实上，这一理念早已在行业层面达成共识。

基于感知、决策规控和 AI 云三大核心能力，商汤「大模型+大算力」已赋能绝影驾、舱、云三位一体产品体系量产落地：

除智能驾驶领域的全栈能力和行泊一体量产解决方案外，「大模型+大算力」也正在助力商汤打造智能座舱跨场景生态。

车展期间，与商汤「日日新 SenseNova」大模型体系深度融合的绝影未来展示舱升级亮相，语言大模型「商汤商量 SenseChat」以及 AIGC 文生图平台「商汤秒画 SenseMirage」也已上车，多点融合重构人车交互方式，打造第三空间。

以「商量」为例，作为千亿级参数的自然语言处理模型，其使用大量数据训练并充分考虑中文语境，展示出出色的多轮对话和超长文本的理解能力。

商汤也展示了语言大模型支持的诸多汽车场景创新应用，如在行车过程中化身「邮件助手」自动提炼关键信息，作为「会议助理」自动生成会议纪要，大大节省用户行车时处理工作的时间和精力，为未来出行的应用场景拓展带来丰富的想象空间。

此外，以人工智能大模型开发、生产、应用为核心，一站式

具身智能时代呼唤“端到端”

“随着模型能力的迭代，以及模型从语言模型逐渐变成一个加上生成、多模态理解的能力，相信在今年年底、明年可能会期待有质变的产生，从务实的角度来看，大模型目前阶段只是一个初步的阶段。”

文丨智驾网王欣

一辆搭载着FSD V12.3.1 Beta的特斯拉穿梭在旧金山市闹区的傍晚，依靠纯视觉端到端的方案完成了从车位驶出到目的地停靠路边的丝滑操作。

马斯克几乎会以每两周的节奏对FSD进行一次“大改”，直到这次FSD V12.3.1 Beta的更新。

3月25日，马斯克向全体特斯拉员工发了一封邮件，要求必须为北美地区提车的客户展示并安装激活FSD V12.3.1 Beta，并在交车前让客户进行短暂的试驾。希望让人们意识到FSD确实有效。

紧接着，马斯克又随即公布特斯拉基于纯视觉方案的端到端自动驾驶泊车功能将在这几日推送，在Twitter上对FSD不惜溢美之词的进行宣扬：开特斯拉用FSD，几乎哪儿都能去。

新版本发布后，海外媒体平台充斥着该版本的测试视频，不少网友对FSD V12.3.1在北美城市道路中的驾驶能力表达了赞叹：Tahts so cool！

作为引领自动驾驶风向标的特斯拉，已经将端到端自动驾驶的热流从北美流入了国内，又从舆论场的角逐带到了今年3月15日-17日召开的电动汽车百人会的产业演讲中来（以下简称：百人会）。

端到端的风暴，在中国正式打响了“第一枪“。

纯视觉在端到端中的“AB”面

随着高速NOA走向城市NOA，自动驾驶系统的复杂程度在大幅提升，数百万行的C++代码对人工编写规则方式带来巨大的成本。

这时，完全基于人工智能和神经网络的感知模块不会存在因为手动编写规则引发效率低下的困惑，所以现如今的行业风向走到基于大模型的端到端自动驾驶。

多家企业在今年百人会论坛中亮相了行业成果的殊荣，各家对于感知的技术路线看法也各有千秋。

去年，商汤的端到端自动驾驶大模型UniAD入选了2023年CVPR最佳优秀论文。

绝影是商汤智能汽车的板块，商汤绝影智能汽车事业群总裁王晓刚在百人会上表示：“端到端的自动驾驶UniAD，是今年我们自动驾驶最大的突破，从高速到城区的领航，在这里可以看到场景日益复杂，需要大量的工程师每天去解决层出不穷的各种case。端到端自动驾驶是数据驱动，能够为我们高效地解决城区的领航，提供更加高效实践的路径。 ”

与传统的的单模态模型相比，多模态大模型的优点在于它可以从多个数据源中获得更丰富的信息，从而提高模型的性能和鲁棒性。

王晓刚还提到，商汤进一步提出了多模态大模型自动驾驶方案，这种方案的输入，除了各种感知传感器，系统的信息以外，还允许人机交互，通过自然语言作为输入。当自动驾驶时觉得旁边大车有压迫感，如果想要离它远一点，或者想超车，都是可以通过语言模型进行交互。

另外，输出的时候不但可以输出感知，还可以输出规控，还可以对自动驾驶做出的决策有解释性。

毫末智行CEO顾维灏也发表了对多模态大模型的看法，基于毫末的的DriveGPT，顾维灏表示，DriveGPT最核心的能力是基于持续的多模态的视觉识别大模型。

“我们把它用Token化的表达方式进行训练，再进行三维化，这是我们做大模型很重要的技术基础。”

DriveGPT是毫末智行研发的垂直领域大模型，在视觉大模型基础上，毫末又构建了多模态大模型，用以实现感知万物识别的能力。

顾维灏表示：“多模态放到视觉大模型里面，就会让视觉三维的渲染、标注、识别，能够提前自动化地理解这个照片里面，或者是说前融合后的数据里面究竟这个桌子和讲台是怎么样来分割的，所以加入了多模态大模型。在认知模型里面，我们又加入了大语言的模型。大语言模型它不仅仅是自然的交互，它还有很多知识的理解。 ”

网络和火山更强调座舱大模型，共识是：认为座舱大模型天生是多模态的场景。

网络的语音和大模型的一体化方案已经在极越车上落地，网络智能云汽车行业解决方案总经理肖猛认为，2024年是座舱大模型的元年。

同时，极越还是目前国内唯一采用纯视觉自动驾驶方案落地的车企，基于网络Apollo纯视觉高阶智驾能力和安全体系赋能，极越完成OCC（Occupancy Network，占用网络）升级，已形成“B.O.T”（BEV+OCC+Transformer）完整技术体系。

与传统的视觉方案相比，OCC的一个显著优势在于它能够处理未知或不常见的物体，降低了因未识别物体而可能引发的意外情况的风险。 OCC还能够以厘米级的精度对障碍物进行三维建模。

3月26日，极越在其AI DAY2024技术大会上，发布了OTA V1.4.0新版软件，升级涉及智能驾驶、智能座舱、智能互联、三电等诸多领域，共计升级200多项功能。

当OCC对应在PPA（点到点领航辅助）功能上，就能使车辆拥有更合理的路线规划，并实现更流畅的变道和绕行。

火山引擎汽车行业总经理杨立伟在谈到大模型在各个行业应用时，发现汽车行业一个非常大的特点。

他表示：“手机目前交互形态还是基于触摸屏幕，通过屏幕来交互的产品形态，所以这也是为什么我们看Siri和手机里面的语音助手做的不好，我相信座舱内有非常便利的空间，目前没有大模型的时候，我们座舱的语音交互的时长和频率已经非常高，座舱是天生多模态的场景，机器想要跟人有互动更好，大模型更像一个人机交互的操作系统和人机交互的智能品。这样的话没有多模态的能力是不行的。 ”

端到端是自动驾驶研究和开发领域的一个活跃研究方向，这是不争的事实，但端到端自动驾驶技术尚未成熟，跟随特斯拉FSD V12的后来者虽多，但对于任何一家具备研发自动驾驶技术能力的企业来说，光是从普通架构切换到端到端技术的单项成本就颇高。

杨立伟坦诚地表达了这一观点：大模型现在在整个汽车行业的应用还是偏早期阶段。 “刚才我们还在讨论，目前是量的提升，没有到质变，随着模型能力的迭代，以及模型从语言模型逐渐变成一个加上生成、加上多模态理解的能力，我相信在今年年底、明年可能会期待有质变的产生，从务实的角度来看，大模型目前阶段只是一个初步的阶段。 ”

感知固然重要，它提供了必要的信息输入，是司机的“眼睛与耳朵”，与它同样重要的，还有被业界及科研机构不断研究的认知，涉及到规划、决策和应对复杂或紧急情况的能力，相当于司机的“大脑”。

而只有当大模型作为自动驾驶的驾驶员，在认知层面远超于人类时，才能做出超出人类的决策能力，这时，感知、认知会不断迭代，甚至超出人类认知的上限，自动驾驶才会迎来真正所谓的GPT、IPhone时刻。

北京大学计算机学院教授黄铁军在百人会上对当下自动驾驶发展阶段进行了总结：

第一个阶段：只关心感知精度，缺乏认知的阶段，现在大部分车还处于这一阶段，就是L2、L3还很难，因为你只关心感知，不关心认知，这是肯定有问题的。

第二个阶段：特斯拉的FSD，但是他也不是真正的大模型，他只是用了Transformer，还是学人类的驾驶行为。但未来一定是对世界的深度认知，加上很强感知的时代。

不过目前，基于纯视觉方案的端到端自动驾驶，仍被很多主机厂认为是跨越鸿沟的必经之路。

因为不需要大量的人工策略、只需要采集足够多的优质驾驶数据来训练即可，可以通过规模化的方式不断扩展数据来不断提升系统的能力上限。

但这种简单也隐藏了巨大风险。

完全基于视觉的端到端自动驾驶不具备传统自动驾驶系统的“透明性”，传统自动驾驶即模块化方法，端到端自动驾驶是一体化方法，不产生中间结果，直接通过图像输入，直接输出控制信号，但这种技术路线也存在彻底黑盒，解释性差的问题。

同时，端到端模型的训练需要处理大量的数据，包括多模态视觉数据和车辆控制信号等。

当大模型训练的“暴力美学”应用在自动驾驶上

端到端可以类比做GPT-4语言模型，通过收集海量的数据加上训练而实现的。

以特斯拉为例，通过遍布全球的几百万辆量产车，可以采集到足够丰富、足够多样的数据，再从中选出高质量数据，在云端使用数万张GPU、以及自研的DOJO进行训练和验证，使得端到端自动驾驶能够从paper变成product。

OpenAI的秘诀一直以来是屡试不爽的Scaling Law——当数据和算力足够多，足够大，就会产生智能涌现的能力。

直到Scaling Law在这次百人会中被诸多次提及，意味着自动驾驶的成熟需要“暴力美学”来催化，而背后是高昂的算力支出来支撑。

黄铁军在百人会上明确强调了大模型未来超越人类的关键不是靠概率，靠的正是对海量语料，数据背后精确的理解。

顾维灏表示，伴随着人工智能和大模型的发展，自动驾驶迎来了第三个阶段：数据驱动的时代。

或许可以这么理解：大部分代码都不是工程师来写，这些工程师从第二个阶段的“软件驱动的时代”来到了第三个阶段的“数据驱动时代”，解放了过去写软件的双手，所有的工程师都是在准备数据、准备环境、训练模型、检验最后的结果、调整结构、调整参数等工作。

最近一段时间的发展，顾维灏认为或许是自动驾驶的3.0时代。 “每一个时代里面的感知、认知和模型是什么样方式来实现的，都完全不一样。 ”他说。

智能驾驶1.0 时代，是以硬件驱动为主；2.0 时代，是以软件驱动为主；3.0 时代，则是数据驱动为主的大模型时代。

“端到端一定是未来很重要的方向，但它不会这么快到来，”顾维灏表示。他认为还需要几年的发展。 “把过去的离散的部分逐渐地聚集化、模型化，把感知的模型聚集到一块，把认知的模型聚集到一块，控制的模型聚集到一块，然后再来实践车端模型和云端模型的联动。 ”

在 3.0 时代中，顾维灏指出端到端是最重要的方向，目前行业的发展趋势是一个从分散到聚集的过程。

在谈到算力需求时，王晓刚认为，过去发展的过程当中，从2012年AlexNet出现，深度学习神经网络大规模的应用，对于算力的需求是上千倍的提升。随着ChatGPT、GPT-4，甚至更大规模的大模型，我们有上亿倍算力需求的提升。

如何分配技术和下一代技术算力的精力、资源也是一针见血的问题。

网络智能驾驶事业群组首席研发架构师王亮在百人会活动上接受媒体采访时透露：“我们选择纯视觉路线，放弃了激光雷达把它拿掉也是资源的原因。我们希望把所有算力、数据、处理资源、人才、模型参数规模都给到纯视觉</stron

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://m.srwj168.com.cn/keji312/15102.html

马斯克九大公司排名

「大模型+大算力」加持，通用人工智能和智能驾驶双向奔赴

具身智能时代呼唤“端到端”

相关文章