出品|搜狐科技
作者|王一鸣
编辑|杨锦
你想通过一张图片就当导演吗?
此前的AI视频生成工具是:“开局一张图,内容全靠编。”
现在纽约AI初创公司Runway宣布,Gen-3 Alpha可以做到“结局一张图,过程也能编”。
这次更新是Runway官宣Gen-3 Alpha一周之后发布的,这说明如今的AI视频生成市场是真的卷,Runway为了保持技术优势一直在做努力。新功能可以让生成视频与图片的基本特征步调统一,让AI视频创造更有一致性和可预测性。
(*一致性:一个特定对象或物体在不同场景、动作和时间点,其外形、属性和容貌特征都能够保持一致,简单来说就是符合正常思维逻辑。)
(*可预测性:AI可以根据画面图像、场景和物理定律等,能够预测视频中的对象或物体在未来时间节点的位置、状态、外观和背景等的变化。)
人工智能生成视频中最重要的特质之一,就是在整个生成的视频过程中需要保持连贯性和艺术特点。通过让用户决定起点和终点,Runway特别有效地创造了AI必须遵守的“叙事桥段”,这样才能输出更加可控和目的性更强的视频。
废话不多说,直接上视频。
这是一张相机拆解图作为结尾用Gen-3 Alpha生成的视频,可以看到整个视频非常有一致性:
这是同一张图片用Gen-2作为开头生成的,可以看到整个视频基本上跟开头的图片没有什么关系,没有任何一致性:
Runway展示了GVFX(Gajdecki Visual Effects)视觉效果:
Runway在X中表示,Gen-3 Alpha图片转视频生成工具现在支持使用图像作为视频生成的第一帧或最后一帧。这个功能可以单独使用,也可以与文本提示结合使用,以获得额外的指导。
一位数字艺术家表示这实在是太重要了!我希望它的第一帧(开头)到最后一帧(结尾)能够达到像Luma AI一样的效果。
不看到最后谁能想到这是一块电路板生成的:
AI绝对是抽象派大师,你也绝对想不到最后会是油画:
根据404 Media报道,Runway使用几千个YouTube视频和盗版电影训练其 AI 文本转视频生成器。该媒体获得的训练数据电子表格包括奈飞、迪士尼、任天堂和R星等娱乐公司的YouTube频道链接,也包括MKBHD、Linus Tech Tips和Sam Kolder这样的博主。
“Runway还利用各种新闻机构旗下频道的链接来训练模型。”一位前Runway员工透露。“然后使用网络爬虫把这些频道的所有视频都下载下来,用VPN来避免被谷歌屏蔽。”
404 Media记者爆出Runway的AI素材训练列表。
以下是电子表格详细内容:
AI视频生成工具使用流媒体平台训练模型不算是很稀奇的事情,OpenAI首席技术官(CTO)Mira Murati表示,她不是很确定OpenAI的Sora有没有用YouTube的资源来训练模型。根据Proof和Wired两家媒体的一份报告显示,亚马逊Anthropic、苹果、英伟达和赛富时 (Salesforce)都在YouTube上使用了17万多个视频训练他们的AI模型。
AI生成视频的未来
这样的技术所产生的影响,已经远远大于AI创造出的夺人眼球的视频。随着AI生成视频变得复杂和可控,它会改变整个行业格局。比如你在电影或者商业领域广告片制作时,不用耗费时间和金钱配置复杂的场景,对于教育领域,它能够根据学习内容资料来生成教学内容。
它还能跟VR头戴显示器结合,想象一下学校可以通过AI创造教学内容,让学生用VR接触历史人物,通过3D模型直观地了解科学概念,或者虚拟地前往世界各地“参观”。
AI生成视频将变成很多视频基础的架构,因为相对比真实地去拍摄,它的成本真的很低。随着技术越来越先进,我们真的不太好去判断一个视频是否使用了人工智能生成。
此外它还降低了普通人视频创作的门槛,也许这是算是个延伸,因为抖音和快手之类的平台已经可以让普通素人不需要什么成本就能参与到视频创作中,现在的可灵、PixVerse V2、清影和Vidu等这样的工具都处于一种初级阶段。
来自马斯克的转发,巴黎奥运会参赛的土耳其“杀手”迪凯奇的枪变成了酒瓶,毫无违和感:
由于AI没有常识性,所以目前AI生成的视频产生恐怖谷效应的概率其实挺高的,比如人类的五官会产生不自然的表情和形状,这是因为AI对于人类了解还是太少了。
还有这段“人狗二象性”:
如果今后这些工具在短时间内能创作出几十个高质量的作品,而且所有人都无法分辨是否是真实拍摄的,那现有的规则就彻底改变了,所有人都是高质量视频创作者。今后你有故事,也有AI,那你就是导演制片人。
对于专业的创作者来说,AI可以释放他们的所有创意和想象力,现实必须遵守的物理规则不再是他们想象力的障碍。
从零开启的视频创作
Runway作为AI初创公司,已从谷歌母公司Alphabet和英伟达获得了数百万美元的投资。
Runway成为Luma Labs、Pika和OpenAI Sora的直接竞争对手,但是Sora目前处于封闭测试中,相比之下Runway更加有优势。
全球的视频剪辑软件市场大约有40亿美元,视觉特效软件市场大约有100亿美元,而Runway就在这两个市场的交汇处。目前全球各大视频平台的创作者的数量还在不断增加,Runway的市场也会不停地增长。
Runway的目标受众分别是没有足够预算的内容创作者、小型企业和专业剪辑师。AI视频工具不需要专业团队,也不需要很专业的视频制作技能,甚至还缩减了编辑视频的流程。
内容营销是Runway最重要的策略和发展方向,Runway学院会通过在线课程让所有目标人群了解到使用AI工具创作的经验和技巧,目标人群会有创作者、影视工作者和设计师等。
社交媒体平台也是Runway展现自己的绝佳舞台。
Runway跟大多数AI工具一样,采用免费和付费订阅模式,根据用户不同的需求进行选择,从个人、团队到企业的需求都可以得到覆盖。
集成性是Runway的亮点之一,企业版支持集成软件套件,避免了Autodesk Maya等软件的复杂工作流程,提升了企业制作视频的工作效率。
Runway希望自己成为一个大型的社区,通过Runway学院培养用户的使用习惯,然后让他们在Discord和X(原推特)上进行分享作品,以达到培养用户忠诚度和“拉新”的效果。
总的来说,降低用户的学习成本,同时利用低成本让用户把自己的创意变成高质量视频是Runway一直努力在做的。
Sora的潘多拉魔盒里有什么Sora有哪些功能
OpenAI推出了文生视频模型Sora,在科技圈引发热议,其发展速度似乎超越了同行的多个量级。 虽然还没有正式对公众开放,但是通过其发布的视频合集可以充分的看出,Sora不仅在生成视频的逼真性方面获得了技术性的突破,在视频时间长度方面也远远的甩开了对手。
Runway在AI视频界有MidJourney之称,可以生成四秒长的视频,其生成的视频可以被用户延长到16秒,这个长度,2023年在AI生成视频界已经是最长的记录了。 Pika可生成的视频长度只有三秒,Stable Video可以生成的视频也只有4秒。 而Sora可以生成的视频,却长达一分钟,可以算得上是王炸。
Runway在几个月前推出了第2代AI生成视频模型,随后又在今年1月份,推出了多头运动笔刷的功能,让用户可以对ai视频生成中的多个元素的运动进行控制。 Runway所提供的视频制作解决方案集合了多种AI工具,因此备受推崇。 但是Runway的CEO在Sora发布之后在社交媒体上发布了GameOn这两个字。 这两个字充分的表达了AI视频界的比赛开始了。
Stability的创始人,在 OpenAI的CEO山姆奥特曼发布了由Sora所生成的以巫师为主题的视频之后,在社交平台上发文称奥特曼是一位巫师大人。 充分的说明了这段视频在AI视频所带来的冲击很大。
Sora在本质上与AI视频生成公司Runway、Pika采用的底层模型是相似的。 但是唯一的不同之处在于Sora将其他公司所采用的小模型的思维进行了变化,采用transformer架构替换了U-Net架构。 这种新的架构能够将图像和视频通过集合视觉编码的较小数据单元表现出来,然后再将这些内容进行解码,并创造出视频,而且还可以达到大模型智能涌现的能力,明显的将样本的质量提高。
OpenAI最新发布了Sora的研究报告,充分地彰显出来 OpenAI将会使用大模型进行物理世界模拟的雄心。
最强AI革命汽车行业?至少这个职位,马上要失业了……
2024年2月16日,OpenAI推出了生成式人工智能模型Sora,标志着AI视频生成进入了一个新阶段。 Sora能够根据少量文字描述,生成长达60秒的视频内容,其流畅性和稳定性超越了之前的生成式AI模型,如Runway、Stable Video和Pika。 此外,Sora还能将静态图像扩展成视频或补充动态帧。 这一突破引起了全球的关注,人们纷纷讨论生成式AI技术带来的影响。 OpenAI将Sora定位为模拟现实世界的视频生成模型,具备精确理解文本命令、生成高质量视频、模拟真实世界物理规则等特性。 这表明AI生成的视频距离以假乱真又近了一步。 同时,谷歌也推出了下一代大模型Gemini 1.5 Pro,其上下文窗口长度扩展到100万个tokens,显示出AI大模型的学习能力在飞速提升。 在汽车行业,Sora等先进技术为宣发工作提供了新的可能性。 例如,深蓝汽车就尝试利用Sora生成新车视频,虽然结果尚未公布,但这预示着车企宣发费用有可能大幅降低。 然而,Sora生成的视频仍有不足之处,如无法准确判断物理运动轨迹,物体间比例和连贯性有待提高。 尽管如此,Sora的想象力不应仅限于艺术创作。 其在高阶辅助驾驶和未来自动驾驶中的应用潜力值得期待。 智能汽车的智能驾驶能力需要像Sora这样的模型来提升,以实现更接近人类驾驶的体验。 此外,Sora的加入或使智能驾驶技术和智能座舱跳出传统训练模式,提高研发和运行效率。 AI的崛起带来了机遇和挑战并存。 虽然AI在各行各业表现出了惊人的能力,但我们不能过于乐观。 AI的商业化之路尚未走完,人类仍然是这个世界的主角。 对于汽车行业来说,如何利用AI的新能力,降低成本并提高效率,是一个需要深入思考的问题。
最强AI革命汽车行业?至少这个职位,马上要失业了……
2024年2月16日,OpenAI宣布推出生成式人工智能模型Sora,外界认为,这是AI视频生成的全新里程碑时刻。
仅需只言片语,Sora就可以给你输出一段最长60秒的视频,并且能够全程保持高度的流畅性与稳定性,实现了对Runway、Stable Video、Pika等生成式AI的超越。 值得一提的是,Sora还能够根据静态图像扩展成一段视频或补充缺失的动态帧。
这几天,整个世界都在围绕着AI旋转,更先进的生成式AI出现,有人欢喜有人忧。
OpenAI将Sora定位为模拟世界的视频生成模型,它的特性包含精确理解文本命令,生成长达60秒的高质量视频、模拟真实世界的物理规则,比如光影反射、运动方式、物理效果等、能够在单个视频当中生成同一对象的多个镜头,并且保持对象外观的高度一致。
这就意味着AI生成的视频距离「以假乱真」又近了一步。
另外,谷歌还宣布了下一代大模型Gemini 1.5 Pro,将上下文窗口长度扩展到100万个tokens,意味着它可以在短时间一次性处理巨量信息,比如11小时音频、一小时视频、超过3万行代码,又或者是超70万个单词。 生成式AI在进步,AI大模型的学习能力同样在突飞猛进。
真赋能也好,蹭热度也罢,一时间整个行业都在围着AI转,也在开始认真思考,更先进的AI技术能够为他们带来什么不一样的应用场景。
站在汽车行业的角度,Sora等更超前的大模型,好像又有一些别样的玩法。
视频全靠「算」,车企的宣发费用全省了?不久前,深蓝汽车更新了一条用AI生成的G318新车视频,视频中罗列了一系列AI「想象中」的G318,表示将借助Sora的能力,「拍摄」一段G318的新车视频,并抛出一个疑问——AI真的能拍出G318的美吗?
能不能「拍」出来暂且不得而知,截至本文发布时,深蓝汽车还未公布Sora眼中的G318究竟如何。 但放眼汽车行业,尝试用大模型生成汽车视频的企业,确实屈指可数。 小通还是很期待,AI的生成质量,能否跟现有的专业拍摄工作流媲美。
车企的宣发工作十分频繁,为了造势吸引流量,测试车都不惜拿出来曝光。 以深蓝G318为例,正式预热之前,官方已经发布多条曝光视频。 不过这款车型已经通过工信部公示,距离上市不会太远。
宣发视频不像简单的海报宣传,涉及拍摄和动画制作等领域,品牌方还需要外包给专业的团队来完成。 一段视频从前期拍摄到后期合成处理,周期长,外包制作的成本也不低。 但为了呈现尽可能好的「官方」效果,这些是车企宣发必须付出的成本。
如果能够凭借Sora的能力和想象力打造一段媲美实拍的宣发视频,那么AI可以说是对现有工作流的一种「打压」了。 仅靠文字和图片,Sora就能生成一段可用的宣发视频,省去一大笔外包费用,还缩短了物料交付的时间,我们似乎通过Sora看到了AI视频商用化的可能性。
当然,或许以后车企的新车官图,都可以用AI来解决了,场景合成效果可以做得更逼真,还省去了前期拍摄和后期的成本。
但问题就在于,Sora生成的视频并非完美,无法准确判断常见的物理运动轨迹,主体与周围物体之间的比例还有提升空间,物体运镜连贯性有待提高。 总体而言,Sora生成的视频确实足够流畅逼真,但以现在的水平还无法完全取代专业团队的生产流程。
生产流的工作或许有一天会被AI取代,但人类的创意潜力是无穷的,这是人类与AI区别最大的地方。
不过,小通认为Sora的想象力不应该止步于艺术创作当中。 作为真正意义上的「世界模型」,Sora认知世界的能力,在高阶辅助驾驶以及未来的自动驾驶当中发挥更多作用。
智能汽车需要Sora,但人类仍是「主角」OpenAI表示,Sora在训练当中表现出了与其它模型不同的涌现能力,通过涌现学习到了物品的时间与空间的相关性,以及与周围世界互动的能力等。 简单来说,Sora不单止是拥有感知世界运行法则的能力,它还可以判断不同事物之间的关系,拥有发散思考的技能。
智能汽车当中的智能驾驶能力也是训练AI模型得出的结果。 当前汽车智能驾驶分为感知、定位、决策、规划、控制几个模块,每个部分紧密配合,最终实现精确的智能驾驶。 智能驾驶的不同模块,目前都需要单独训练,训练量庞大,研发人员要通过不断地「喂数据」优化迭代,所带来的沉没成本自然巨大。
360董事长周鸿祎认为,原来的自动驾驶技术过于强调感知层面,而没有工作在认知层面。 人在驾驶汽车的时候,很多判断都是基于对这个世界的理解,比如对方的速度、会否发生碰撞、碰撞的严重性如何。 这就是当前智能驾驶与真人司机之间的区别。
但Sora对世界的感知和交互能力,并不是单纯的数据堆叠就能实现的。 想要提高自动驾驶的研发和运行效率,人为优化迭代是必须,更重要的还是要让AI具备自主发散,缩短迭代周期,将交互能力赋能到现有的智驾模型当中,更接近人类的驾驶体验或许就此诞生。
此外,支撑计算的算力芯片,光是智能座舱、智能驾驶就需要多块单独的高性能SoC支撑,集中化程度欠缺,整车成本也下不来。 无论是算力平台还是模块都趋向集中化和一体化,智能驾驶或许就不再分成多个模块,而是将其当作一个整体。
再到智能底盘领域,有些车企开发出了路面预判能力,通过提前建模判断路况,实时调整底盘工作状态。 当前的工作模式还是先建模后再决策,本身存在一定的时间和过程,有时候并不能够像人类司机一样判断及时判断。
这一切,有了Sora的加入之后,智驾技术和智能座舱就能够跳出传统的训练模式。 试想一下,如果Sora自己生成模拟现实世界的视频,再用来训练自动驾驶的能力,说不定比车企不断收集道路数据和视频训练来得更快,而且Sora的交互能力还有机会影响到现有的自动驾驶模型。
AI「生米煮成熟饭」,挑战与机遇并存我们的想象力总会比AI更快一步,这就说明人类还无法完全被AI所替代。
现阶段的AI在各行各业表现出了令人意外的能力,大模型的出现更为企业提供了更多可能。 不过我们对AI的态度或许不应该过于乐观,AI还没走到最关键的商业化层面,很显然人类仍然是这个世界绝对的「主角」。
对于汽车行业而言,机遇和挑战并存,AI的崛起为车企带来了降本增效的新突破口,但AI的潜力上限尚不可预知,当前的应用场景也不能代表AI的全部,想要完全利用,不是一件简单的事。
就好比智能手机的影像传感器,还没被打磨完成,就已经被厂商抛弃,造成浪费。
同时,要支撑庞大的AI运算和数据积累,车企的投入完全看不到底,比如头部厂商需要建立自己的数据中心。 另外,先进大模型确实有利于汽车智能化发展,但这并不意味着车企能够高枕无忧,在算法投入上,车企之间的智能驾驶开发程度上仍然存在明显代查,模块化的智驾技术还没玩透,头部的端到端等潜在新赛道更是难以跟上。
到最后,AI变成了巨头提升自身水平的「专属武器」,前者的能力越强,很可能会拉大不同厂商之间的代际差别,使得汽车行业头部化来得更猛烈。
无论如何,Sora的潜力值得期待,不过这需要时间去发掘,谁也不敢保证AI接下来还能厉害到什么地步。