出品|搜狐科技
作者|王一鸣
编辑|杨锦
你想通过一张图片就当导演吗?
此前的AI视频生成工具是:“开局一张图,内容全靠编。”
现在纽约AI初创公司Runway宣布,Gen-3 Alpha可以做到“结局一张图,过程也能编”。
这次更新是Runway官宣Gen-3 Alpha一周之后发布的,这说明如今的AI视频生成市场是真的卷,Runway为了保持技术优势一直在做努力。新功能可以让生成视频与图片的基本特征步调统一,让AI视频创造更有一致性和可预测性。
(*一致性:一个特定对象或物体在不同场景、动作和时间点,其外形、属性和容貌特征都能够保持一致,简单来说就是符合正常思维逻辑。)
(*可预测性:AI可以根据画面图像、场景和物理定律等,能够预测视频中的对象或物体在未来时间节点的位置、状态、外观和背景等的变化。)
人工智能生成视频中最重要的特质之一,就是在整个生成的视频过程中需要保持连贯性和艺术特点。通过让用户决定起点和终点,Runway特别有效地创造了AI必须遵守的“叙事桥段”,这样才能输出更加可控和目的性更强的视频。
废话不多说,直接上视频。
这是一张相机拆解图作为结尾用Gen-3 Alpha生成的视频,可以看到整个视频非常有一致性:
这是同一张图片用Gen-2作为开头生成的,可以看到整个视频基本上跟开头的图片没有什么关系,没有任何一致性:
Runway展示了GVFX(Gajdecki Visual Effects)视觉效果:
Runway在X中表示,Gen-3 Alpha图片转视频生成工具现在支持使用图像作为视频生成的第一帧或最后一帧。这个功能可以单独使用,也可以与文本提示结合使用,以获得额外的指导。
一位数字艺术家表示这实在是太重要了!我希望它的第一帧(开头)到最后一帧(结尾)能够达到像Luma AI一样的效果。
不看到最后谁能想到这是一块电路板生成的:
AI绝对是抽象派大师,你也绝对想不到最后会是油画:
根据404 Media报道,Runway使用几千个YouTube视频和盗版电影训练其 AI 文本转视频生成器。该媒体获得的训练数据电子表格包括奈飞、迪士尼、任天堂和R星等娱乐公司的YouTube频道链接,也包括MKBHD、Linus Tech Tips和Sam Kolder这样的博主。
“Runway还利用各种新闻机构旗下频道的链接来训练模型。”一位前Runway员工透露。“然后使用网络爬虫把这些频道的所有视频都下载下来,用VPN来避免被谷歌屏蔽。”
404 Media记者爆出Runway的AI素材训练列表。
以下是电子表格详细内容:
AI视频生成工具使用流媒体平台训练模型不算是很稀奇的事情,OpenAI首席技术官(CTO)Mira Murati表示,她不是很确定OpenAI的Sora有没有用YouTube的资源来训练模型。根据Proof和Wired两家媒体的一份报告显示,亚马逊Anthropic、苹果、英伟达和赛富时 (Salesforce)都在YouTube上使用了17万多个视频训练他们的AI模型。
AI生成视频的未来
这样的技术所产生的影响,已经远远大于AI创造出的夺人眼球的视频。随着AI生成视频变得复杂和可控,它会改变整个行业格局。比如你在电影或者商业领域广告片制作时,不用耗费时间和金钱配置复杂的场景,对于教育领域,它能够根据学习内容资料来生成教学内容。
它还能跟VR头戴显示器结合,想象一下学校可以通过AI创造教学内容,让学生用VR接触历史人物,通过3D模型直观地了解科学概念,或者虚拟地前往世界各地“参观”。
AI生成视频将变成很多视频基础的架构,因为相对比真实地去拍摄,它的成本真的很低。随着技术越来越先进,我们真的不太好去判断一个视频是否使用了人工智能生成。
此外它还降低了普通人视频创作的门槛,也许这是算是个延伸,因为抖音和快手之类的平台已经可以让普通素人不需要什么成本就能参与到视频创作中,现在的可灵、PixVerse V2、清影和Vidu等这样的工具都处于一种初级阶段。
来自马斯克的转发,巴黎奥运会参赛的土耳其“杀手”迪凯奇的枪变成了酒瓶,毫无违和感:
由于AI没有常识性,所以目前AI生成的视频产生恐怖谷效应的概率其实挺高的,比如人类的五官会产生不自然的表情和形状,这是因为AI对于人类了解还是太少了。
还有这段“人狗二象性”:
如果今后这些工具在短时间内能创作出几十个高质量的作品,而且所有人都无法分辨是否是真实拍摄的,那现有的规则就彻底改变了,所有人都是高质量视频创作者。今后你有故事,也有AI,那你就是导演制片人。
对于专业的创作者来说,AI可以释放他们的所有创意和想象力,现实必须遵守的物理规则不再是他们想象力的障碍。
从零开启的视频创作
Runway作为AI初创公司,已从谷歌母公司Alphabet和英伟达获得了数百万美元的投资。
Runway成为Luma Labs、Pika和OpenAI Sora的直接竞争对手,但是Sora目前处于封闭测试中,相比之下Runway更加有优势。
全球的视频剪辑软件市场大约有40亿美元,视觉特效软件市场大约有100亿美元,而Runway就在这两个市场的交汇处。目前全球各大视频平台的创作者的数量还在不断增加,Runway的市场也会不停地增长。
Runway的目标受众分别是没有足够预算的内容创作者、小型企业和专业剪辑师。AI视频工具不需要专业团队,也不需要很专业的视频制作技能,甚至还缩减了编辑视频的流程。
内容营销是Runway最重要的策略和发展方向,Runway学院会通过在线课程让所有目标人群了解到使用AI工具创作的经验和技巧,目标人群会有创作者、影视工作者和设计师等。
社交媒体平台也是Runway展现自己的绝佳舞台。
Runway跟大多数AI工具一样,采用免费和付费订阅模式,根据用户不同的需求进行选择,从个人、团队到企业的需求都可以得到覆盖。
集成性是Runway的亮点之一,企业版支持集成软件套件,避免了Autodesk Maya等软件的复杂工作流程,提升了企业制作视频的工作效率。
Runway希望自己成为一个大型的社区,通过Runway学院培养用户的使用习惯,然后让他们在Discord和X(原推特)上进行分享作品,以达到培养用户忠诚度和“拉新”的效果。
总的来说,降低用户的学习成本,同时利用低成本让用户把自己的创意变成高质量视频是Runway一直努力在做的。
Sora的潘多拉魔盒里有什么Sora有哪些功能
OpenAI推出了文生视频模型Sora,在科技圈引发热议,其发展速度似乎超越了同行的多个量级。 虽然还没有正式对公众开放,但是通过其发布的视频合集可以充分的看出,Sora不仅在生成视频的逼真性方面获得了技术性的突破,在视频时间长度方面也远远的甩开了对手。
Runway在AI视频界有MidJourney之称,可以生成四秒长的视频,其生成的视频可以被用户延长到16秒,这个长度,2023年在AI生成视频界已经是最长的记录了。 Pika可生成的视频长度只有三秒,Stable Video可以生成的视频也只有4秒。 而Sora可以生成的视频,却长达一分钟,可以算得上是王炸。
Runway在几个月前推出了第2代AI生成视频模型,随后又在今年1月份,推出了多头运动笔刷的功能,让用户可以对ai视频生成中的多个元素的运动进行控制。 Runway所提供的视频制作解决方案集合了多种AI工具,因此备受推崇。 但是Runway的CEO在Sora发布之后在社交媒体上发布了GameOn这两个字。 这两个字充分的表达了AI视频界的比赛开始了。
Stability的创始人,在 OpenAI的CEO山姆奥特曼发布了由Sora所生成的以巫师为主题的视频之后,在社交平台上发文称奥特曼是一位巫师大人。 充分的说明了这段视频在AI视频所带来的冲击很大。
Sora在本质上与AI视频生成公司Runway、Pika采用的底层模型是相似的。 但是唯一的不同之处在于Sora将其他公司所采用的小模型的思维进行了变化,采用transformer架构替换了U-Net架构。 这种新的架构能够将图像和视频通过集合视觉编码的较小数据单元表现出来,然后再将这些内容进行解码,并创造出视频,而且还可以达到大模型智能涌现的能力,明显的将样本的质量提高。
OpenAI最新发布了Sora的研究报告,充分地彰显出来 OpenAI将会使用大模型进行物理世界模拟的雄心。