OpenAI要再次带国内大模型玩家飞

被传了几个月,OpenAI终于官宣入局AI搜索。

北京时间7月26日,OpenAI在官网发布消息,宣布推出AI搜索产品SearchGPT。

OpenAI CEO山姆·奥特曼在X(前推特)公布喜讯,比起夸自己,更像是diss前人:“我们认为如今的搜索还有改进的空间”,还说:“我惊喜地发现比起传统的搜索方式,我有多喜欢这个新方式,而且我适应得非常快。”

中文说“传统”听起来其实都客气了,奥特曼用的英文原词是“Old-school”,这个词说不上有贬义,但有明显的新旧之分。至于这里说的老派搜索是谁,奥特曼不说大家也知道。

这不,OpenAI推出SearchGPT的消息一出,隔壁“老派搜索”的代言人谷歌股价应声下跌3%。 这可以说是雪上加霜了,在前一个交易日,谷歌刚刚因为发布财报股价下跌5%。一来二去,谷歌两个工作日市值蒸发超过1700亿美元。

不过这次SearchGPT的“惊喜”不止于此。很快,CNBC的一名科技记者就从OpenAI官方展示之中发现了数个错误。如问八月的音乐节,SearchGPT连甩好几个答案都是已经结束的六月、七月的音乐节。

AI产品初发布时不完美,这并不稀奇。但如此“低级”的错误对OpenAI来说并不常见。且不说SearchGPT该不该犯这样的错误,更让人匪夷所思的是,如此明显的事实错误,OpenAI的团队居然没有发现,还放进了展示中。

这不禁让人怀疑,OpenAI是不是有些心急?

进军AI搜索,是OpenAI商业化的又一尝试。

不仅是OpenAI,从微软掏出新必应高喊要颠覆搜索,Perplexity这样的AI搜索初创公司成长为估值百亿美元的硅谷新星,到“千模大战”被高成本拖累后,越来越多的玩家盯上AI搜索,“搜索”一直是这波AI浪潮中令巨头和初创公司觊觎的肥肉。

在国内,搜索老玩家百度、360搜索、夸克等,都已经积极做了AI搜索改造,甚至推出单独的应用。新入局的字节豆包、Kimi也纷纷将AI搜索作为高亮功能,在7月上线浏览器插件,轻量化落地应用。

遥想ChatGPT带飞国内掀起千模大战,又有文生视频工具Sora引得国产大模型厂商竞逐“国产Sora”。如今OpenAI正式入局搜索,会不会再次带飞大洋彼岸的它们?

目前,SearchGPT还只是“原型”。据OpenAI发言人透露,SearchGPT由GPT-4驱动,目前只为10000人开放测试,广大用户可以在官网申请进入候选名单。

不过,OpenAI放出了若干展示动图和视频,可以一窥SearchGPT工作起来的样子。

直接观感来讲,可以看到SearchGPT的几个特点:对话式搜索、援引高质量信息源(如出版社和权威媒体)、图文并茂。

字母榜(ID:wujicaijing)使用Perplexity做了同样的搜索,发现二者的展示逻辑基本一样:做AI概述,即用自然语言总结查询到的结果;与此同时,对内容源的链接做单独的集中展示。不过二者给出的结果(也就是有哪些音乐节)几乎都不一样,这个待会儿再说。

同时字母榜也用国内的豆包、Kimi、天工AI测试了这个问题的本土化版“2024年中国的音乐节”,其展示内容与逻辑与SearchGPT也是一样的。最明显的区别就是SearchGPT会同时展示海报,做到了图文并茂。

不过这种图文并茂也并不稀奇,谷歌此前上线的AI概述功能也能做到这一点。最近微软必应也开始小范围内测在传统搜索链接之上加上AI概述,显示效果也很不错。

从产品展示来看,SearchGPT并不是一个像Sora那样“遥遥领先”的家伙,但有几点值得注意。

第一是对信息源的重视。也许是被之前ChatGPT遭受的各种侵权争议搞怕了,OpenAI这次再三强调信息源的问题。在官宣博文中是这么说的:“山姆和OpenAI才华横溢的团队始终明白,AI驱动的搜索要想有效,就必须建立在可信来源提供的最高质量、最可靠的信息之上。”“技术和内容必须共生,信息来源必须得到保护。”

简单来说, OpenAI的SearchGPT的信息全部来自合作出版商的高质量资料,与训练ChatGPT所用的海量语料库隔绝。 甚至即使有网站选择不参与ChatGPT的训练,也可以出现在搜索结果中。

除此之外,OpenAI接受出版商的反馈,且允许出版商管理其内容在SearchGPT中的显示方式。

相比于直接在ChatGPT基础上做AI搜索,这对OpenAI而言是一条成本更加高昂的路径。

除了OpenAI自身受到的指摘之外,谷歌此前的AI概述功能,一会儿建议用户在披萨里加胶水,一会儿让情绪低落的用户直接从金门大桥一跃而下,频频翻车,也为OpenAI提供了前车之鉴。

第二个值得注意的点是,OpenAI对SearchGPT未来的规划。

SearchGPT最终将会是ChatGPT的一部分。OpenAI还透露SearchGPT未来将提供 “视觉化答案” ,不过目前没有给出相关案例展示。大胆猜测,在目前已经有图片展示的情况下,OpenAI所说未来的“视觉化答案”,兴许会与其视频生成模型Sora相关。

OpenAI发布的产品并非总是完美。

还未发布就声名大噪的Sora,就时不时被揪出错误。比如日本网友发现Sora生成视频中,东京街头的日文招牌大多数并不准确,街景中也会出现不合常规的障碍物。再比如视频中的人和动物有时会出现物理错误,走路的人连续两次右脚在前、双腿交叉时发生变形、狗狗在跑动时出现神秘的“第五条腿”等等。

更别说OpenAI的招牌ChatGPT,到现在也没有完全攻克“AI幻觉”的难题。

但这些还都是一些该领域普遍面临的难题,不管是ChatGPT还是Sora的“出错”,彰显着它们远未达到完美,但依然掩盖不了其光芒。

但这一次,在SearchGPT发布后被发现的错误就显得有些“不OpenAI”。 在前文提到针对“2024年8月北卡罗来纳州布恩的音乐节”的回答中,SearchGPT被发现提供的好几个音乐节都早已经结束。这也意味着SearchGPT“准确回答用户问题”的能力也许并不突出,以相同的问题询问Perplexity,其未出现类似错误。

更能说明问题的,是这样一个明显且初级的错误,被放置在了OpenAI官宣博文的展示当中。

这倒是更像谷歌会犯的错误——在这场如火如荼的AI浪潮的初期,被各方质疑速度太慢的谷歌慌乱之中推出ChatGPT的竞品Bard,却在展示视频中将天文望远镜“张冠李戴”,导致其市值两天蒸发近1700亿美元。

在被动之中心急,被认为是谷歌犯错的主要原因。那OpenAI呢?

就在SearchGPT被官宣的前一日,The Information发表了一篇“基于此前未披露的内部财务数据和业务相关人士的分析”的报道,估算OpenAI今年亏损可能高达50亿美元。

其中OpenAI今年的员工成本是15亿美元,而AI培训和推理成本今年可能达到70亿美元。另外The Information估计,今年OpenAI的收入在35亿美元到45亿美元之间。这个估算与之前媒体报道的奥特曼向员工透露的年化收入34亿美元相符合。

如果年亏损50亿美元的估算没有错,结合之前OpenAI已经烧掉了27亿美元,那么这意味着去年1月微软给的100亿美元离耗尽也不远了,OpenAI也许很快就需要开启新一轮融资。

另一边,OpenAI最有力的竞争者Anthropic,也在近日被报道今年将烧掉27亿美元。而它的运营效率还远低于OpenAI——此前该公司预计,到2024年年底,将创造8亿美元年收入,但由于其与亚马逊共享收入,扣除之后,Anthropic的年化收入可能还要减掉25%到50%。

AI烧钱,这是一个老生常谈的问题。但头部企业如OpenAI也面临收入难题,实在很难令人不对这个赛道捏一把汗。

OpenAI自然会有赚钱的焦虑。一方面是降本,OpenAI已经表示,通过新技术,已经大幅削减了AI模型的运行成本。而更加长远的打算,则是降低甚至摆脱对芯片供应商英伟达的依赖,为此奥特曼正在积极推进其自研芯片的“伟业”。

另外一方面自然是增加收入。在目前OpenAI的收入中,最主要的仍旧是ChatGPT的订阅收入,以及向开发者开放接口、与to B的企业合作带来的收入。

其中ChatGPT带来的年收入预估有20亿美元,但近来OpenAI允许不注册使用、向免费用户也开放使用的做法,使得数百万的免费用户增加其计算成本,又不产生任何额外的收入。而截至今年3月,应用程序编程接口API带来的月收入在8000万美元水平。

对于增加收入,OpenAI也有失败的尝试。奥特曼在其去年被赶下CEO之位前,曾宣布了“GPT商店”的宏图,被外界看作ChatGPT平台化的重要一步,对标苹果的App Store。但此举并未如期待般带来“生态繁荣”,而是搞了一地鸡毛,奇葩的、侵权的各类定制GPT层出不穷。据Sametime Web数据,今年2月GPTs访问量仅占ChatGPT网页端1.5%。

专为应用开发者做产品分析的公司Hintloop的创始人曾透露,在他分析的36000多个GPT商店的定制聊天机器人中,大约有5%每天有150到500个活跃用户,但是绝大多数每天只有一到两个用户。

不管各种产品与功能的最终结果如何,不可否认的是OpenAI的“带货能力”。

就以GPT商店为例,其消息在去年11月宣布,产品在今年1月正式上线,即刻引发各类公司的跟进,包括国内的一众AI玩家,已经有类似产品的赶紧升级,没有的就现捣鼓。

消息公布后的2023年12月,百度就将其“灵境矩阵”升级为“文心大模型智能体平台”。今年2月,字节跳动开发的AI Bot开发平台“扣子”上线。又过了两个月,4月,阿里钉钉上线AI助理市场。5月,月之暗面旗下大模型明星产品Kimi也新增了被称作“Kimi+”的功能,提供四大类共计24个Kimi+分身,适配用户的不同需求。

同样的情况在OpenAI今年2月官宣文生视频工具Sora之后也上演了。

最出圈的消息,当属今年2月Sora被官宣,9天之后,抖音CEO张楠就辞任该职务,转而亲自带队剪映,并称AI图像生成对她产生很大的触动,决定“放下一切”,义无反顾地出发。不久后,剪映“即梦”上线,支持文生视频和图生视频等。

不仅字节,快手在6月正式开放可灵AI。快手披露的数据显示,可灵大模型上线一个月,累计申请用户数50万以上,开通用户数30万以上,生成视频数700万。仅在今年上半年,定位文生视频的初创公司生数科技、爱诗科技等,就相继完成了多轮亿元级别的融资。

对于已经布局AI搜索的企业来说,OpenAI推出SearchGPT,无疑将是一个利好消息。

目前,搜索领域的老玩家如百度、360等早已尽数强化AI搜索,或翻新搜索引擎,或推出独立的新产品。搜索创始人王小川的AI创业公司百川智能同样推出“懂搜索”的百小应。

觊觎搜索许久的科技巨头再次发起尝试。腾讯有元宝APP,字节有豆包,阿里旗下的夸克如今也强调AI搜索,如今在苹果应用商店搜索夸克,“AI搜索”是明晃晃的C位。

这一波浪潮中崭露头角的AI公司自然也不会放过搜索,月之暗面的Kimi、昆仑万维的天工AI,以及秘塔AI搜索等等,都已悉数就位。

2019年时,谷歌搜索负责人本·戈麦斯(Ben Gomes)曾经忧心忡忡地在内部邮件中称,搜索“离钱太近了”,他担心“增长会是谷歌唯一考虑的事情”。

而如今,AI企业们正担心“离钱不够近”,搜索成为人人想偷的塔。

然而,“搜索离钱很近”大体是因为离广告很近。

如今的AI搜索们,则在宣传时高举“无广告搜索”之旗帜。就像OpenAI言称“老派搜索”指的只能是谷歌一样,“无广告搜索”针对的是谁大家也都明白。

房间里的大象仍然是商业化怎么搞,如果不用广告,AI搜索用什么赚钱?

不幸的是,目前没有人给出一个新颖的答案,更尴尬的是,“AI搜索”的探路者们已经开始想走谷歌的路。

微软新必应在去年2月发布,一个月之后,微软副总裁就称公司在探索在必应聊天过程中植入广告。今年4月,“谷歌杀手”Perplexity也向广告低头,而且不做“硬广”,专做软广——Perplexity的广告计划是从“相关问题”着手,将广告融入内容,而且是在用户深入某个话题时才会出现(越看越像竞价排名)。

在一些国内的AI搜索产品中,已经可以看出商业变现入口的可能性。如360AI搜索的网页版,首页搜索框下的提示语、大家正在搜、今日热搜以及右上角滚动提示等多个位置在向广告招手。

要知道,Preplexity在今年1月以5.2亿美元的估值完成了7360万美元的B轮融资,这也是今年互联网搜索初创企业筹集的最大一笔资金。同时据披露,Perplexity的月活用户已达千万,截至2023年已处理超过5亿个搜索请求,在手机上安装其APP的用户数也达到百万。微软自不必说,是总市值超过3万亿美元的科技巨头。

虽然GPT商店目前并未创造奇迹,可以称得上是OpenAI一次失败的尝试,但其平台思维、生态思维还是令AI玩家们看到了另一种变现可能。如今OpenAI入局搜索,从产品上来看可能并不会带来多少新意,人们更期待的,是它能回答微软、Perplexity都没能回答的问题:如果说搜索离钱很近,AI搜索究竟该怎么赚钱?

国内的AI搜索玩家已经就位,静待OpenAI用想象力煽动一阵风。

参考资料:

中国经营报:《AI搜索商业化走老路 Perplexity打算植入广告》

光子星球:《国内大厂“魔改”AI搜索》

21世纪经济报道:《国内大厂“应战”Sora》

字母榜:《抖音追不上Sora》

硅星人:《还不到6个月,GPTs凉了》


OpenAI是什么?

OpenAI发生的严重故障对用户、公司本身以及其他相关方都造成了不小的影响。 对于用户来说,他们需要密切关注OpenAI的修复进展并等待服务的恢复正常。 对于OpenAI来说,他们需要认真总结此次故障的经验教训,加强技术研发和管理,确保服务的可靠性和稳定性。 其他相关方也需要密切关注事态的发展并做出相应的应对措施。 许多用户无法正常访问OpenAI的网站或使用其软件和服务,如GPT-4模型等。 这给用户带来了很大的不便,特别是对于那些需要使用OpenAI的服务来完成工作或学习的用户来说更是如此。 由于故障发生在服务器端,一些用户的数据可能因此丢失或损坏。 对于那些使用OpenAI服务来存储和备份数据的用户来说,这无疑是一个巨大的损失。 虽然OpenAI已经采取措施来恢复数据,但这需要一定的时间和努力。 一些用户可能因此次故障而遭受经济损失。 例如一些公司可能需要支付额外的费用来获得技术支持或恢复数据。 一些用户可能因此次故障而无法按时完成工作或项目,需要承担延误的后果。 此次故障还可能给一些用户带来心理压力。 由于无法正常使用OpenAI的服务,一些用户可能会感到焦虑、沮丧或无助。 特别是对于那些高度依赖OpenAI服务的用户来说,这种压力可能更大。 此次故障对OpenAI的声誉造成了不小的影响。 许多用户可能会对OpenAI的可靠性和服务质量产生怀疑,这对其未来的发展可能会带来一定的负面影响。 由于此次故障给用户带来了经济损失和其他损失,一些用户可能会因此向OpenAI提出索赔要求。 如果这种情况发生,OpenAI可能会面临一系列的法律纠纷。

一文读懂 OpenAI

揭开OpenAI的神秘面纱:探索人工智能的未来领航者</

OpenAI,这个美国AI领域的革新者,由Sam Altman等重量级人物共同创立,其愿景在于推动AI技术向着更友好的方向发展。 这家研究实验室倚仗着强大的计算力,初始投资就高达10亿美元,马斯克曾是其董事会成员,但后来因与特斯拉自动驾驶AI策略的分歧而退任。 OpenAI的历程犹如一部技术史诗,一系列里程碑产品如OpenAI Gym、Universe、GPT-3、DALL-E和最近的ChatGPT逐一登场,点燃了AI领域的热情。

微软在2023年对OpenAI的重金注入,彰显了对其未来潜力的深刻信任。 ChatGPT的横空出世,尤其引人瞩目,微软将其整合至Bing搜索引擎,紧随其后,Google也推出了相似的AI应用。 AI界的焦点瞬间集中到ChatGPT,甚至这个域名也被指向了这一革命性的聊天机器人。

2020年,OpenAI推出了多功能API,让开发者得以接触最新AI模型,专攻英语任务。GPT家族的参数和数据背后,是技术的飞跃:

在GPT系列的道路上,GPT-3.5的发布进一步增强了基础模型,包括GPT-3和Codex的增强版,后者是基于2021年数据的精进之作。

尽管GPT-2和GPT-3展现了文本生成、翻译和问题解答的强大能力,但其潜在风险也引发了深入的讨论。 GPT-3.5的分支产品,如ChatGPT,更是焦点所在。 传闻中的GPT-4虽然据说将超越其前辈,但Sam Altman对这些传闻予以澄清。

ChatGPT,作为GPT-3.5的衍生,凭借其文本生成、编程等多面手特性,迅速在业界崭露头角。 然而,其准确性的问题仍然备受关注。 Plus服务的推出,不仅提升了响应速度,还带来了更多创新功能,进一步推动了技术边界。

Transformer</,作为自注意力机制的深度学习模型,以其在NLP和CV领域的卓越表现,取代了RNN的地位,预训练基础如BERT、GPT得以提升。

Codex,GPT-3的继承者,专精于GitHub代码库的学习,与GitHub Copilot协同工作,特别擅长Python编程任务。

Whisper,作为多语言语音识别系统的杰出代表,应对各种语音任务得心应手。

MuseNet,凭借其深度神经网络的魔力,能够创作出丰富多样的音乐风格,借鉴了GPT-2的通用无监督学习技术。

OpenAI Microscope作为可解释性研究的可视化工具,让我们能洞察复杂神经网络的秘密。 DALL-E,2021年的杰作,通过GPT-3的强大解析能力,将文本指令转化为生动图像,而CLIP则反之,生成文字描述来描述图像内容。

要深入了解ChatGPT技术的最新动态,不妨关注浮之静公众号,加入ChatGPT技术交流群,那里是科技探索者们的聚集地。

【汽车人】大模型:汽车的自我革命

汽车变身为行走的计算终端,其革命性形态已经出现。 现在就参与大模型构建和应用,就显得比较重要了。

文 /《汽车人》黄耀鹏

今年的新能源汽车产业,如果说有什么技术发展方向是业内共识的话,除了高压快充普及,就是大模型接入了。

7月31日,吉利预告了大模型技术;8月8日,广汽推出“广汽AI大模型平台”;本月,奇瑞将发布自己的AI大模型……在此之前,小鹏、理想、特斯拉都宣称自己拥有“自动化数据闭环系统”(大模型的一种应用方向)。 李想公开宣称:“大模型的研发和训练,是智能电动车企业的必要能力。 ”

而平台级公司,网络、阿里、腾讯、360、华为都推出了自己的大模型。 上半年结束的时候,国内大模型已经达到80个以上。 中美两国的大模型数量占据了全球80%。

面对大模型,车企有三种选择:第一种是从基础层开始,全盘由自己搭建;第二种是在平台级企业搭建的基础层上搭建应用层;第三种是直接接入某个大模型。

目前,三种玩法都有一批企业参与。 网络的文心一言(语言大模型),就有长安、红旗、岚图、长城、吉利、东风日产、零跑、集度等几十家车企接入。

大模型有很多应用方向,语言类的集中于智能座舱的优化。 而汽车必须首先满足安全便捷地运送乘客,自动驾驶能力是刚需。 因此,现在车企部署/接入的大模型,主要就是做自动驾驶,或者其中的一些环节。

什么是大模型

到底什么是“大模型”?

其实“模型”就是一段计算机程序,用来构建一个虚拟的神经网络。 和生物的神经网络类似,只有刺激到一定程度,神经才会活跃。 如果再强化刺激,就会输出活动。

这其实就是多段函数的表达。 神经网络模拟任意连续函数,也就成了可能。 上世纪80年代之后,这些计算机概念就建立起来,并在自动驾驶上应用,但一直没有大的突破。

原因在于参数量。 这是ChatGPT火起来的重要原因。 OpenAI公司发现,模型参数如果多到一定程度,系统智能(模型精度)就会极大提升,原理现在无法解释,但已经有了一个词汇来形容——“涌现”。

多到什么程度呢?一般来说,至少要1亿左右。 当然,因为自然语言的信息密度高于图像,所以ChatGPT-2的参数量达到15亿个,而ChatGPT-3则达到1750亿个,刚好和人类神经元数量级别差不多。

不过,自动驾驶方面的应用,现在用不了那么多参数。 因为“涌现”现象尚未在计算机视觉领域出现。 考虑到成本,车企们都未将大模型参数量做到ChatGPT-3那么夸张。 但上亿是没跑的,否则就很难叫大模型,需要部署超算中心或者云端算力中心,来运行如此之多的参数。

运行参数用来做什么?对自动驾驶系统进行数据训练。 那么大模型定义就呼之欲出了,就是拥有大量参数、运行于大算力硬件平台上,并能够完成无监督学习(自我训练)的计算机程序。

自动标注和预标注

以前都是有监督学习(人工训练),现在让AI自我训练,就需要先完成数据闭环。 这就是为什么几家新势力说自己拥有“自动化数据标注系统”的原因,其实就是大模型的一个功能。

而完整的数据闭环则囊括了数据采集、数据回流、数据处理、数据标注、模型训练、测试验证诸多环节。 其中,“数据标注”是AI自我训练的前提,也是AI训练的成本节点。

所谓标注,就是给视频或者图像的关键信息点贴上标签,以便让系统认识并在实际操作中做针对性规划。 显然,量产车采集的场景基本都是重复的,数据意义不大。 专门采集车则比较贵(成本每天6000元-元)。

重点是,如何尽量多地搜集到“长尾场景”,即不常遇见,但驾驶了很多次之后,每个人几乎都会遇上的场景(占5%左右)。

在大模型上线前,都是人工标注。 1000帧的视频数据,人工标注成本可能达到万元。

而大模型目前最有价值的部分,莫过于自动化数据标注,可能会节约上亿元(取决于替代多少人标注数据)。

特斯拉为了打造一套高效数据闭环系统,自研了超算中心。 超算的另一个作用,就是有了基底训练数据——超过20亿公里,就不太依赖新的实际路采了。 大模型会改变参数,在电脑里面重建场景,自动进行长尾场景的自我训练。 比如采了白天的数据,稍微改一下,就变成黑夜、雨天,或者有司机急打方向盘、急踩刹车造成的混乱等等,都可以模拟。

在超算上运行的大模型,对长尾场景自动进行“预标注”。 而后续还要进行人工审核,譬如要把漏标的框标注出来、把标注错误的框删掉、把框的大小统一等。 如果大模型预标注做得好,那么后续人工审核工作量就很小了,与采用人海战术对每一个图像要素进行标注,完全不可同日而语。

新的合作方式

数据闭环的工作现在已经分割给外包供应商、大模型平台公司(也可以视为供应商)和车企分别来做。

关键在于,数据闭环能否让车企有效迭代自动驾驶算法,并提升应对偶发场景的能力(这几乎是L4绕不过去的坎)。 落实到使用层面,通过多方合作,基于新的标注数据,进行新的训练,实现由数据闭环驱动自动驾驶软件迭代,并通过OTA部署到终端。

很少有车企能够彻头彻尾地自己部署基础大模型,自己搞定应用层,自己设计预标注并实现数据闭环,再驱动算法更新。 这即是L4的进化之路,它的技术复杂度要求车企与供应商充分融合式合作,而非传统的供应商“交付”-主机厂应用。

车企过于看重价值链全盘掌握,强调全栈自研,可能会耽误迭代进程。

如果设计一种规则,比如基础层大模型由平台级公司设计,车企负责掌握标注规则,并将后续人工审核交给另外的第三方,拿回标注好的数据之后,自己进行训练。 通过任务拆解,让自己处于自动驾驶价值链的核心地位。 避免在关键技术上受制于人,也不用被迫接受“全家桶”(即由某个供应商提出软硬一体的解决方案)。

车企对这种方式应该驾轻就熟,现在球踢回供应商这边,要求后者也要主动参与到车企的大模型设计和训练当中,而不必执着于“打包交付”。

目前,虽然上马大模型的车企越来越多,但是已经实现数据闭环,并部署于量产车上的,几乎没有。 大家都还在拼“谁先抵达下一个节点”。 好消息是,L4看上去并非那么遥不可及了。

现在的问题是,一个主机厂面对好几个自动驾驶系统供应商。 各个供应商提供的每一个模块,代码质量不一,工具链可能也不相同。 如何检验不同供应商的模块是否存在冲突,目前的工程化还不够成熟。

这就涉及到,新获得的长尾数据,对决策(规划)产生的影响到底是什么。 有些新增数据,上了模型训练之后,效果变好(有效应对了该场景),但总体上效率下降。 这样的局部改善导致整体变差的情况,需要对全局价值进行一番预评估。 这是另外的话题了,不展开。

转移模型到车端

不过有一点需要澄清,大模型部署于超算中心或者云端,但很难部署于车端。 因为后者没有那么强的算力,而且车端的数据存储空间也不胜任。 大模型的训练也要在超算平台上完成,训练得差不多了(改善可以无终点),就能上车,大模型就必须缩窄成中模型或者小模型。

数据需要压缩,将知识体系(从感知输入到规控输出)转移到轻量级的模型上,后者是车端算力和存储可以承受的。

这其实就是“端到端”的算法。 很多人都将“端到端”视为自动驾驶算法的终极形态。 所谓“端到端”,即只要有原始数据输入(环境感知),就可以输出结果(操作动作),和ChatGPT类似,中间过程对观察者来说是“黑盒子”。

虽说人类不需要理解决策过程,但人们总担心自动驾驶算法会输出匪夷所思的决策。 大量实践结果没问题,也不能打消顾虑。

不过这很像人类驾驶了。 熟练司机从眼睛看见,到转方向盘、踩刹车或油门,都是中枢神经在工作,人类没有觉得自己花时间思考了。 这就是大脑的“预训练系统”在起作用。

转移模型还有个好处,就是避免了云与车端通讯的时延问题。 车端AI反应都是毫秒级,如果指望云端给出关键规划,哪怕有边缘计算加持,通讯也不能在任何时候实时保障。

云端的作用,可以发挥大模型的参数容量优势,完成数据挖掘、自动数据标注等任务。 在车端,可以部署分管不同子任务的多个小模型,合并成一个“中模型”,以节省车端计算环节的推理时间,增加安全性。 不过车端模型的参数量,要比云端少一到两个数量级。

为了提升ChatGpt的能力,OpenAI在8年间耗费十亿多美元的训练成本。 车企大概率不会付出那么高的成本(不过特斯拉超算中心就花了10亿美元)。 如何用有限资金,抢占场景落地和商业化的速度(即训练迭代速度),而非一味追求模型之大、算力之强?

既然AI的应用已经走到了利用大模型实行空间(再现物理空间)计算这一步,那么L4就有可能实现。 这是所有车企应该具备的能力,无论它们采用什么方式达致这一目的。

汽车变身为行走的计算终端,汽车的革命性形态,已经出现在视野,不再遥遥无期。 现在就参与大模型构建和应用,而不是置身事外,就显得比较重要了。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/keji312/3098.html
中国组合黄雨婷
江苏绿建 中建智地酒仙桥项目亮相前夕 了 临阵脱逃