让多模态大模型更懂人类在做什么 北大王选所 2024 ECCV

只用提示词,多模态大模型就能更懂场景中的人物关系了。

北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用 提示词工程技术 教会多模态大模型理解区域级的人物交互关系。

在这个过程中,最难的部分在于教会模型识别 未见过的人物交互类型

要知道,大多数现有研究都集中在封闭环境,一旦变成更接近现实的开放环境,模型就懵逼了!

比如下图,先前的检测器在平衡已见和未见类别时遇到了困难, 导致调和平均值较低 ,并且在未见类别上的表现较差。

相比之下,CMMP方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能。

至于CMMP方法如何解决未见类别, 一句话

在特征提取过程中使用视觉空间线索,帮助识别未见的人物-物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。

总之,CMMP方法提供了一种新的范式,可以微调多模态大模型,使其具备 泛化的 区域级人物交互关系检测能力。

以上研究来自北大王选计算机技术研究所,相关论文已被顶会ECCV 2024接收。

零样本人物交互检测新框架

团队提出了一种使用CMMP进行零样本HOI(Human-Object Interaction)检测的新框架。

具体来说,CMMP将零样本人物交互检测 分为两个子任务

然后为每个子任务 分别提出了 解耦的视觉和文本提示,以消除它们之间的依赖性并缓解错误传播。

条件视觉提示(Pv)用于将空间和交互性感知的知识注入图像编码器,并通过实例级视觉先验(Cins)和交互的全局空间模式(Cgsp)进行约束。条件语言提示(PL)通过正则化损失受人设计的提示(CL)的约束。

交互性感知的视觉特征提取

团队采用的多模态模型的图像编码器最初通过对大规模图像-文本对进行对比学习预训练(CLIP),其能力可能仅限于理解图像级的一阶语义。

为了使图像编码器能够区分图像中所有的人物交互性,团队提出将不同粒度的先验知识整合到条件视觉提示中,使其理解为人物交互关系检测任务定制的 区域级二阶语义

具体来说,研究人员 将实例级信息作为先验知识 融入条件视觉提示中。

给定输入图像,首先使用预训练的物体检测器获取所有实例级先验知识,包括边界框、置信度分数和检测到的实例的语义编码。

此外,为了鼓励每个实例意识到其潜在的交互对象,团队将训练集中交互的全局空间模式(Global Spatial Pattern)与实例级先验知识(Instance-level Visual Prior)结合。

具体来说,对于每个标注的交互人物对,研究人员 首先计算其一元和二元空间特征。

随后,使用K-means聚类算法确定聚类中心,并将其用作交互人物对的代表性空间模式。

全局空间交互模式提供了一种类别无关的代表性空间配置,作为理解已见和未见人物交互概念之间交互性的桥梁。

最终,研究人员将结合后的知识通过轻量级适配器融入到图像编码器中。

可泛化的交互分类

为了在学习人物交互检测任务特定表示的同时保留CLIP的可泛化通用知识,团队在文本分支中采用了 带有一致性约束的语言感知提示学习(Language-aware Prompt Learning)

该约束确保已见和未见类别的学习原型(Prototype)之间保持合理的分离边界,不会彼此过度偏离。

具体来说,对于每个动作类别,研究人员 首先使用 人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。

类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接,然后通过文本编码器获得。

为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力,研究人员提出 使用人工设计的提示 来指导可学习语言提示的特征空间。

该约束确保已见和未见类别的原型之间保持合理的分离边界,不会彼此过度偏离。

团队应用 正则化对比学习损失 来减少特征表示与人工设计语言提示的特征表示之间的差异。

训练CMMP

基于交互性感知的特征图和预训练物体检测器提取的人和物体的边界框,团队首先应用ROI-Pooling来提取不同区域的特征。

然后,将不同区域提取的特征进行融合,并通过交互分类器进行最终的交互类别预测。

整个模型在交互分类训练中使用了focal loss,同时还应用了语言正则化损失。

实验结果

在结果验证阶段,团队采用 人物交互检测常用数据集HICO-DET ,其中的600个人物交互类别由80个物体类别和117个动词类别组成。

为了验证模型的零样本性能,研究人员在HICO-DET上评估了 五种零样本设置

为了和现有方法实现公平比较,研究 默认采用ViT-B/16 作为骨干网络。

如下表所示,实验结果表明,CMMP在所有的零样本设定上, 都在未见类上取得了最佳的性能 ,这证明了引入条件多模态提示的有效性。

如表中每种类型的 最后一行所示 ,通过利用ViT-L/14骨干网来扩展CMMP以匹配CLIP4HOI的FLOPs,新方法在所有划分中都取得了最佳性能。

这表明团队的模型在视觉特征的空间关系提取和交互分类的原型学习方面具有卓越的能力。

此外,先前的方法在已见和未见类别之间表现出严重的性能差异,表明其缺乏泛化能力。

而本研究的模型能够在很大程度上缓解这一问题,并且在 泛化 到以前未见的交互类别方面具有很高的潜力,这证实了带有约束的多模态提示的有效性。

更多细节请参考原论文。


倒计时10天!年底最强自动驾驶峰会主会场嘉宾全揭晓

智驾怎么落地?大模型如何重构?20位嘉宾将深入解读!

作者|迩言

编辑|Juice

各位自动驾驶行业同仁们,距离2023全球自动驾驶峰会(GADS 2023)的开幕进入倒计时10天了。

本届峰会由智一科技旗下车东西联合硬科技讲解与服务平台智猩猩主办,以「奇点将至 共赴繁荣」为主题,将于12月19日在深圳正式举行。 峰会由主会场会议+分会场论坛+展览+榜单组成,近40+位自动驾驶领域的学术代表、商业领袖、技术专家、青年学者、资深投资人和分析师,将解构高阶智驾的创新密码,共探自动驾驶的奇点时刻。

今天,峰会的主会场嘉宾阵容将正式公布!

20位重量级嘉宾将在主会场带来致辞、报告、演讲和对话。 接下来,我将为大家一一揭晓。

主会场嘉宾阵容全公布

聚焦高阶智驾、大模型与算力

主会场会议由开幕式以及高阶智能驾驶专场、大模型专场和自动驾驶算力专场三个专场组成。 其中,开幕式在上午进行,三个专场将在下午依次进行。

深圳市南山区科技创新局党组书记、局长曹环将进行大会致辞,智一科技联合创始人、CEO龚伦常也将代表主办方致辞。 而在主会场开幕式上,智一科技联合创始人、总编辑张国仁也将公布2023年度中国自动驾驶产业链先锋企业榜单。

此外,两周前,我们为大家预告了参与主会场的11位行业大咖,而近期还有6位核心产业链代表出席主会场。由此,本年度峰会主会场的“智驾明星天团”正式形成!

其中,清华大学计算机系长聘教授、博士生导师、清华大学人工智能研究院视觉智能研究中心主任 邓志东教授,上海AI Lab 浦驾OpenDriveLab团队负责人 李弘扬,德赛西威智能驾驶传感器事业部负责人江伙红,智行者科技联合创始人、研发中心副总经理 张放,千挂科技联合创始人 叶璨,华兴资本集团华兴证券董事总经理、硬科技团队负责人 阮孝莉,五源资本合伙人 刘凯,极佳科技创始人&CEO 黄冠,升启科技创始人&CEO 孙琪,恺望数据创始人、CEO 于旭将出席主会场开幕式。

元戎启行技术合伙人兼副总裁 刘念邱,凯芯科技产品负责人 张迪,吉利朗歌科技CEO助理兼智驾中心负责人 李战斌,升启科技创始人&CEO 孙琪也将亮相下午的高阶智能驾驶专场。

而大模型专场则有智己汽车智能驾驶软件高级经理 殷玮,恺望数据创始人、CEO 于旭带来分享。

在自动驾驶算力专场上,安谋科技智能物联及汽车业务线负责人 赵永超,黑芝麻智能芯片和架构副总裁 何铁军,环宇智行联合创始人、CEO 曹晶也会出席。

接下来,将为您一一介绍各位演讲大咖以及主题内容。

1、清华大学计算机系长聘教授、博士生导师、清华大学人工智能研究院视觉智能研究中心主任 邓志东

▲清华大学计算机系长聘教授、博士生导师、清华大学人工智能研究院视觉智能研究中心主任 邓志东

邓志东,清华大学计算机系长聘教授,博士生导师,清华大学人工智能研究院视觉智能研究中心主任。 现为中国自动化学会会士,中国计算机学会杰出会员,首届中国人工智能产业创新联盟专家委主任,第一届、第二届科创板咨询委员会委员(2019-现在),中国自动化学会智能自动化专业委员会主任(2013-2023)等。

邓志东曾任华为2012实验室越影项目战略顾问(2018年11月-2019年11月),国家863计划智能机器人主题专家组组长助理(1998-2001),深圳市拓邦电子(A股上市公司)独立董事(2005-2011)等。

他于1992年-1994年在清华大学计算机系从事人工神经网络与强化学习的博士后研究。 1994年12月晋升为清华大学副教授,2000年晋升为教授。 1996年-1997年在香港理工大学合作研究一年(对方聘用)。 2001年-2003年在美国华盛顿大学,作为客座教授合作研究两年(对方聘用)。 先后主持或参与国家级重点科研项目30余项。 在深度神经网络、递归神经网络、计算神经科学、深度强化学习、环境感知、自主决策与规控等,取得多方面创新性理论与技术成果。

邓志东迄今已发表学术论文300+篇(包括IEEE TNN,TNNLS,TITS;CVPR,ICCV,ECCV,AAAI,IJCAI等),其中WOS收录106篇,EI收录123篇。 参编教材或参考书5部。 目前的研究方向包括:人工智能(深度神经网络、深度强化学习)、无人驾驶汽车、先进机器人等。

报告主题:《大型视觉语言模型助力自动驾驶产业落地》

内容概要:

本主题首先介绍什么是自动驾驶大型视觉语言模型(VLM),着重剖析自动驾驶中的人类视觉语言思维与决策规划范式,以及采用BEV+VLM方案适配各种下游知觉任务的重要性。

其次,对上述自动驾驶具身智能的技术路线进行分析,包括基于视觉-文本对齐大模型的一体化方案与多模态视觉大模型赋能的端到端单车智能方案。

最后,本主题将重点介绍大型视觉语言模型如何助力从NOA到L3+与L4的自动驾驶产业落地,主要涉及开放视觉词汇多任务零样本学习,交互式自动驾驶智能体如何完成人类驾驶技能的对齐学习,以及自主驾驶认知能力的获得对产业落地的意义。

2、上海AI Lab 浦驾OpenDriveLab团队负责人 李弘扬

▲上海AI Lab 浦驾OpenDriveLab团队负责人 李弘扬

李弘扬,上海AI Lab 浦驾OpenDriveLab团队负责人,2022年获Waymo自动驾驶国际知名挑战赛第一名;团队提出的工作(BEVFormer、UniAD等)在国际上取得领先地位,为多家自动驾驶公司提供了实际量产落地方案。 提出的环视3D检测工作获2022年全球最有影响力的AI论文Top 100、UniAD工作获CVPR 2023最佳论文奖。

报告主题:《端到端自动驾驶的前景与挑战》

内容概要:

自动驾驶算法体系包含感知和决策两大部分,工业级软件算法架构包含感知、预测、规划、控制等级联模块。 既然一切自动驾驶问题最终优化目标是方向盘和加速度,为何不跳过感知模块,不输出3D框,端到端地直接让网络学习这些控制信号?一方面,李弘扬团队注意到最近的CVPR/ICCV国际知名研究机构都在布局这方面工作;另一方面,车企也在探索感知决策一体化的前瞻性研究。

本次报告会首先回顾下CVPR 2023 端到端自动驾驶最新研究进展;然后重点介绍团队在这方面发表在国际会议的工作以及在大模型方面的应用思考。

3、德赛西威智能驾驶传感器事业部负责人江伙红

▲德赛西威智能驾驶传感器事业部负责人江伙红

江伙红,德赛西威智能驾驶传感器事业部负责人,在德赛西威历经软件研发、产品策划等多个岗位,始终致力于高阶辅助驾驶的实践和创新,曾带领团队参与初代智能驾驶域控制器的开发,并推动德赛西威智能驾驶整体解决方案的持续迭代。 凭借丰富的行业经验和扎实的产品技术,主导的产品在多家主流车企落地量产。

演讲主题:《场景驱动下的智能驾驶商业化实践与思考》

内容概要:

2023年,人工智能大模型、城市NOA等一批热门话题快速兴起,相应衍生出包括性能提升、平台选择、合作模式在内的诸多问题,江伙红将从德赛西威基于多年来在智能辅助驾驶领域的投入和实践,将围绕规模化量产和技术路径两个维度,与行业分享自动驾驶技术快速变化迭代下的思考和企业答案。

4、智行者科技联合创始人、研发中心副总经理 张放

▲智行者科技联合创始人、研发中心副总经理 张放

张放,智行者科技联合创始人、研发中心副总经理,清华大学、加州大学伯克利分校博士,曾任职于日本日产先进技术研究中心,从事自动驾驶算法的开发工作,自2012年开始进行自动驾驶研究,主持多项自动驾驶项目的技术研发,拥有丰富的研发经验。

演讲主题:《数据驱动的全场景行泊越一体智能驾驶方案》

内容概要:

当前汽车智能化程度已经成为消费者购买的重点关注度之一,前装标配的驾驶辅助系统(L0~L2)在22年首次突破千万规模。 高级别驾驶辅助系统的装配率预计在25年将达到20%,市场正迎来爆发期。 但目前用户体验参差不齐,包括成熟度不如驾驶员、使用范围受限、接管次数偏多、性价比不高等方面,依然面临诸多挑战。 为此,智能驾驶系统需要积极应对挑战,追求极致性价比,不断扩展ODD,从高速扩展到城市、越野等场景,不断提升自动驾驶等级,如典型场景下的L3级别自动驾驶系统。

本次分享,将以智行者的实践为基础,全面介绍行泊越全场景一体解决方案的核心技术,如数据驱动、基于BEV的多传感器时空融合感知技术等,并全面剖析诸多关键技术的应用给智驾系统带来的改变。

5、千挂科技联合创始人 叶璨

▲千挂科技联合创始人 叶璨

叶璨,千挂科技联合创始人,叶璨博士对 AI 前沿技术的应用探索具有丰富经验,他曾担任快手资深技术总监,负责快手主站推荐、快手 AI 技术,以及快手私域和社交业务,推动了强化学习在工业界的首次大规模落地应用。 叶璨博士还曾就职于网络金融/移动事业部,担任资深架构师。 他拥有美国卡内基梅隆大学(Carnegie Mellon University,CMU)电子与计算机工程系博士学位以及浙江大学信息与通信工程系学士学位。

演讲主题:《商用车智能驾驶的落地实践与技术新趋势》

内容概要:

随着行业不断发展,面向商用车的智能驾驶系统,由于场景差异与应用需求,也逐步分化出了自身特性,并在技术前沿探索方向上呈现出新趋势。

本次分享以自动驾驶卡车为切入点,介绍干线物流场景下自动驾驶技术的最新实践进展,结合当下的AI大模型技术,分享团队在BEV感知、前融合、视觉语言大模型、端到端自动驾驶技术等方向的进展。

6、华兴资本集团华兴证券董事总经理、硬科技团队负责人 阮孝莉

▲华兴资本集团华兴证券董事总经理、硬科技团队负责人 阮孝莉

阮孝莉女士是华兴资本集团华兴证券董事总经理,硬科技团队负责人。 阮女士曾任职于美国德州仪器(TI)和中德证券,拥有产业和投资银行的复合背景,在私募融资、分拆融资、上市公司重大资产重组、跨境并购等多种复杂交易方面积累了丰富的项目经验,曾作为主要角色参与环旭电子发行股份及支付现金跨境并购FAFG、韦尔股份152亿重大资产重组收购豪威科技及思比科、北京君正72亿重大资产重组收购ISSI等。

华兴资本集团是中国领先的综合性金融服务机构,其私募融资财务顾问业务排名连续18年保持市场首位。 以半导体、智能汽车和新能源为代表的硬科技领域是华兴布局重点之一。 自动驾驶拥有大市场+高成长+强需求三大要素,是华兴长期坚定看好并战略布局的赛道。 阮孝莉女士曾带领团队完成了车载毫米波雷达芯片公司加特兰多轮私募融资、智能驾驶解决方案研发商佑驾创新(MINIEYE)E轮私募融资、无人驾驶解决方案提供商驭势科技C轮私募融资等多个行业标杆性项目。 硬科技团队将持续深耕产业,坚持优化市场资源配置,为中国自动驾驶产业发展添砖加瓦。

7、元戎启行技术合伙人兼副总裁 刘念邱

<span style=backgrou

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/keji312/13916.html
阿汤哥从天而降接过会旗 巴黎奥运正式闭幕 图
或将刷新记录 超珍稀测试用宝可梦卡牌惊现拍卖站