甲子光年智谱AI发布视频生成大模型亦庄提供算力 B站参与研发

作者： 2024年07月26日金融浏览

视频大模型进入百模大战。

作者｜赵健‍‍‍

今年是“视频生成”大模型爆发元年。在过去两个月，我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。

但上半年的视频生成大模型公司，往往只聚焦在视频生成这一个功能。

而下半年，大语言模型公司将逐渐跟随OpenAI的脚步，纷纷入场视频大模型，把语言模型与视频模型做大一统。

在备受瞩目的“大模型六小强”中，动作最快的是智谱AI。

今天上午，这家清华系大模型独角兽上线视频生成大模型产品“清影”，直接面向所有用户开放，支持文生视频与图生视频。

在智谱清言PC或App里输入一段文字或图片后（即Prompt），用户可以选择自己想要生成的风格，包括卡通3D、黑白、油画、电影感等，配上清影自带的音乐，就生成了充满AI想象力的视频片段；此外，“AI动态照片小程序”支持图生视频。

对于现在视频大模型领域的格局，张鹏认为大概也会像大语言模型一般，进入百家争鸣的格局。

在商业化策略上，清影目前的付费方案是：首发测试期间，所有用户均可免费使用；付费5元，解锁一天（24小时）的高速通道权益，付费199元，解锁一年的付费高速通道权益。智谱AI CEO张鹏表示：“现在的商业化仍处于非常早期的阶段，而且成本实际上也非常高，后面会根据市场的反馈做逐步迭代。”

清影API也同步上线智谱大模型开放平台，企业和开发者通过调用API的方式，体验和使用文生视频以及图生视频的模型能力。

清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地，为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持；清影的训练依托亦庄高性能算力集群，在北京亦庄算力集群诞生，未来也将应用于北京亦庄广阔的高精尖产业集群，形成大模型赋能实体经济的新业态。

在生态合作上，bilibili作为合作伙伴也参与了清影的技术研发过程，并致力于探索未来可能的应用场景。同时，合作伙伴华策影视也参与了模型共建。

1.30秒将任意文字生成视频

清影的具体效果如何？先看一下官方发布的几支视频案例（都配上了音乐）。

提示词：低角度向上推进，缓缓抬头，冰山上突然出现一条恶龙，然后恶龙发现你，冲向你。好莱坞电影风

提示词：在霓虹灯闪烁的赛博朋克风格城市夜景中，手持跟拍的镜头缓缓推近，一个机械风格的小猴子正在用高科技工具维修，周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格，气氛神秘，4K高清。

提示词：广告拍摄视角，黄色背景，白色桌子上，画面中一个土豆被扔下来变成一份薯条

提示词：古典美女

提示词：一条龙的口中喷射出火焰，烧毁了一个小村庄

提示词：水豚慵懒地用吸管喝可乐，扭头朝向相机

清影的视频生成时长为6s左右，输入提示词之后需要等待时间是30s左右。张鹏表示，这个生成速度在业内已经算非常快了。

张鹏认为，多模态模型的探索还处于非常初级的阶段。从生成视频的效果看，对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。从模型本身角度看，需要更具突破式创新的新模型架构，它应该更高效压缩视频信息，更充分融合文本和视频内容，贴合用户指令的同时，让生成内容真实感更高。

2.自研DiT架构

清影底座的视频生成模型是CogVideoX，它将文本、时间、空间三个维度融合起来，参考了Sora的算法设计。CogVideoX也是一个DiT架构，通过优化，CogVideoX 相比前代（CogVideo）推理速度提升了6倍。

智谱主要分享了CogVideoX 的三个技术特点：内容连贯性、可控性、模型结构。

首先，为了解决内容连贯性的问题， 智谱自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，以此减少视频扩散生成模型的训练成本及训练难度。

模型结构方面，智谱采用因果三维卷积（Causal 3D convolution）为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。

同时，在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性，便于通过微调的方式向更高帧率与更长时间泛化。

从工程部署的角度，智谱基于时间维度上的序列并行（Temporal Sequential Parallel）对变分自编码器进行微调及部署，使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。

第二点是可控性。 现在的视频数据大多缺乏对应的描述性文本或者描述质量低下，为此智谱自研了一个端到端的视频理解模型，用于为海量的视频数据生成详细的、贴合内容的描述，这样可以增强模型的文本理解和指令遵循能力，使得生成的视频更符合用户的输入，能够理解超长复杂prompt指令。

这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”（re-captioning technique）训练了一个高度描述性的字幕生成器模型，然后使用它为训练数据集中的视频生成文本字幕。此外，OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕，然后发送到视频模型。

最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构， 它摒弃了传统的cross attention模块，而是在输入阶段就将文本embedding和视频embedding concat起来，以便更充分地进行两种模态的交互。

然而两种模态的特征空间有很大差异，智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异，这样可以更有效地利用扩散模型中的时间步信息，使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

其中注意力模块采用了3D全注意力机制，先前的研究通常使用分离的空间和时间注意力或者分块时空注意力，它们需要大量隐式传递视觉信息，大大增加了建模难度，同时它们无法与现有的高效训练框架适配。

位置编码模块设计了3D RoPE，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。

3.Scaling Law仍在发挥作用

智谱在AIl in大模型路线之初，就开始多模态领域相关布局。从文本，到图片再到视频，大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习，涌现出理解、知识和处理不同任务的能力。

智谱对于多模态大模型的研究可追溯到2021年。从2021年开始，智谱先后研发了CogView（NeurIPS’21）、 CogView2（NeurIPS’22）、CogVideo（ICLR’23）、Relay Diffusion（ICLR’24）、CogView3 （2024）。

基于CogView，团队研发基于大模型的文本到视频生成模型CogVideo，采用了多帧率分层训练策略生成高质量的视频片段，提出一种基于递归插值的方法，逐步生成与每个子描述相对应的视频片段，并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注，在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。

2024年5月，GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势，原生多模态大模型在其中扮演重要角色：GLM大模型团队认为，文本是构建大模型的关键基础，下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练，构建真正原生的多模态模型。

智谱全方位布局大模型系列产品，多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性，未来会在不断scale up数据规模和模型规模的同时，探究更具突破式创新的新型模型架构，更高效地压缩视频信息，更充分地融合文本和视频内容。

张鹏认为，未来大模型的技术突破方向之一就是原生多模态大模型，Scaling Law将继续在算法与数据两方面发挥作用。

“我们还没有看到技术曲线放缓的迹象。”张鹏表示。

国产AI大模型排行榜，全国内AI大模型整理

1. 文心大模型，网络AI大模型

2. 通义千问，阿里巴巴AI大模型3. 腾讯混元，腾讯AI大模型4. 华为盘古，华为AI大模型5. 360智脑，360AI大模型6. 玉言，网易AI大模型7. 日日新，商汤AI大模型8. 知海图AI，知乎AI大模型9. 天工，昆仑万维AI大模型10. ChatGLM，智谱AI大模型11. 孟子，澜舟科技AI大模型12. DriveGPT，毫末智行自动驾驶大模型13. 源，浪潮AI大模型14. 曹植，达观数据AI大模型

科研院所大模型1. 紫东太初，中科院AI大模型2. 悟道，智源研究院AI大模型3. MOSS，复旦大学团队发布4. 风乌，上海人工智能实验室大模型根据数据规模与质量，企业/组织市值，研发实力，算力投入，业务方向等指标综合排行，科研院所单独进行排名

国产AI大模型排行榜,全国内AI大模型整理

1. 网络推出的文心大模型，是旗下的AI大模型之一。 2. 阿里巴巴的通义千问，代表了该公司的AI大模型技术。 3. 腾讯混元，是腾讯在AI大模型领域的力作。 4. 华为盘古，体现了华为在AI大模型领域的研发实力。 5. 360的智脑，展示了360在AI大模型方面的成就。 6. 网易的玉言，是网易AI大模型技术的结晶。 7. 商汤科技的日日新，代表了公司在AI大模型领域的创新。 8. 知乎的知海图AI，展现了知乎在AI大模型方面的探索。 9. 昆仑万维的天工，是该企业在AI大模型领域的杰作。 10. 智谱AI的ChatGLM，是聊天机器人领域的突破性进展。 11. 澜舟科技的孟子，代表了公司在AI大模型方面的高水平研究。 12. 毫末智行的DriveGPT，是自动驾驶领域的大模型应用。 13. 浪潮的源，展示了浪潮在AI大模型领域的技术积累。 14. 达观数据的曹植，是该企业在AI大模型方面的创新成果。科研院所大模型方面：1. 中科院的紫东太初，是中科院在AI大模型领域的代表作。 2. 智源研究院的悟道，代表了该院在AI大模型研究的高水平。 3. 复旦大学团队发布的MOSS，是复旦大学在AI大模型领域的研究成果。 4. 上海人工智能实验室的风乌，是该实验室在AI大模型方面的重要成果。综合考虑数据规模与质量、企业/组织市值、研发实力、算力投入、业务方向等多个指标，进行综合排行。科研院所的排名则根据其研究成果单独进行。

谁推翻了夏桀的统治

1. 商汤科技是一家领先的人工智能企业，自2014年成立以来，一直专注于人工智能技术的研发。 2. 2021年，商汤科技在香港成功上市，以多模态、多任务通用人工智能能力为核心，涵盖了感知智能、自然语言处理、决策智能和智能内容生成等领域。 3. 商汤科技在AI芯片、AI传感器及AI算力基础设施方面也有深入布局，为AI研究和应用提供了强大的动力。 4. 商汤科技联合创始人杨帆表示，算力是推动AI技术进步的关键，强大的算力是实现AI技术突破和应用深入的前提。 5. 商汤科技打造的AI大装置SenseCore，就是一个将算力、算法和平台打通的新型人工智能基础设施。 6. 杨帆还预测，大模型在未来10年会像手机一样必不可少，但不会像过去两年那样有极度的爆发，更多地将取决于应用场景。 7. 商汤科技正在以其领先的技术和基础设施，推动人工智能技术的进步和应用，而中国的AI产业化也将成为未来的一大亮点。中国人的“FSD”？1. 商汤科技是AGI领域的佼佼者，业务遍布全球。 2. AGI（通用人工智能）指的是具有人类般通用智能的系统，能够在不同任务和领域中表现出广泛的适应能力。 3. 商汤科技一直坚持技术原创，并在2014年首次超过人眼识别率，2018年开始大模型相关研究，2023年发布了端到端技术。 4. 商汤的SenseChat V5在SuperCLUE中文基准测试中刷新了国内最好成绩，展现出商汤在AGI技术方面的强大实力。走进商汤科技：1. 商汤科技成立于2014年，2021年在香港上市，一直致力于多模态、多任务通用人工智能能力，包括感知智能、自然语言处理、决策智能、智能内容生成等关键技术领域。 2. 商汤科技对AI芯片、AI传感器及AI算力基础设施持续布局，并在此基础上建立商汤日日新SenseNova大模型及研发体系。 3. 商汤科技在上海临港建立智算中心（AIDC），这里每秒可处理高达9千万亿次的浮点运算，为AI研究和应用提供强大的动力。中国信通院公布AI代码大模型评估：1. 中国信通院发布了首批可信AI代码大模型评估结果，其中包括华为云盘古、智谱CodeGeeX、阿里云通义灵码等国产AI大模型均首批通过评估。 2. 这些模型在通用能力、专用场景能力、应用成熟度等方面表现优秀，为模型能力提升和企业选型提供规范性参考。商汤董事长兼CEO徐立：1. 商汤科技董事长兼CEO徐立认为，品牌的价值来自于大众的认知共识。 2. 对于科创企业，走向认知共识的一个关键条件和重要路径就是以应用的规模化落地为导向，不断刷新大众认知。 3. 中国恰恰拥有庞大的应用场景和市场，在创新技术上叠加中国特色的应用模式，正是中国科技企业构建品牌竞争力的关键。 4. 徐立认为，在这个过程中技术所带来的创新，将使公众对品牌从认知走向认同，是一个更加正向发展的过程。