只需要一个语言模型让图像扩散模型生成高质量360度场景 CVPR

作者： 2024年06月11日科技浏览

蔡志鹏博士（https://zhipengcai.github.io/）是美国英特尔研究院的研究员，博士毕业于澳大利亚阿德莱德大学。他的研究兴趣包括鲁棒视觉感知，持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇。其中5篇文章被选为顶级会议（ECCV18*2，ICCV19，ICLR24，CVPR24）口头或特邀报告，对鲁棒估计计算复杂度的理论证明工作被选为ECCV18 12篇最佳论文之一。

360 度场景生成是计算机视觉的重要任务，主流方法主要可分为两类，一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识，这类方法无法有效生成多样的 360 度视角，导致场景内主要的目标被多次重复生成，如图 1 的床和雕塑。

图 1. 缺乏场景全局结构的先验知识导致一个卧室出现多张床，一个公园出现多个雕塑。

另一类方法将 360 度场景用一张 Equirectangular Image 来表示，并用 GAN 或扩散模型直接生成。由于该表征的局限性，这类方法通常无法有效完成 360 度闭环（如图 2 每张图片的中间部分），导致 360 度的连接处出现明显的分界线。同时由于缺少大规模训练数据，这类方法有时无法生成复合输入条件的场景。最后，这类方法通常只能接受文字作为输入。

图 2. 现有方法的闭环问题.

为了解决这些问题，来自美国英特尔研究院的 Zhipeng Cai 等人提出了 L-MAGIC（Language Model Assisted Generation of Images with Coherence），通过使用语言模型控制图像扩散模型有效实现高质量、多模态、零样本泛化的 360 度场景生成 。L-MAGIC 的 live demo 已被选为英特尔公司 2024 年的 5 个技术突破之一，在 ISC HPC 2024 上展示。该论文已被 CVPR 2024 接收。

项目主页：https://zhipengcai.github.io/MMPano

代码：https://github.com/IntelLabs/MMPano

论文地址：https://arxiv.org/pdf/2406.01843

Youtube 视频介绍：https://youtu.be/XDMNEzH4-Ec

Intel ISC HPC 2024 live demo：https://www.intel.com/content/www/us/en/events/supercomputing.html

方法概览

如图 3 所示，L-MAGIC 是一个结合了语言模型及扩散模型的场景生成框架。L-MAGIC 通过自然图像连接各类不同模态的输入。当输入不是一张自然图像时，L-MAGIC 使用成熟的条件扩散模型如 ControlNet 从各种模态的输入（文字，手绘草图，深度图等等）生成一张自然图像。

图 3.L-MAGIC 流程图。

在获得自然图像之后，L-MAGIC 通过 iterative warping and inpainting 来生成 360 度场景的多个视角。在每一个 iteration 中，warping step 将已生成的多视角 warp 到一个新的视角，实例中的黑色部分代表新视角中的缺失像素。Inpainting step 使用基于扩散的图像 inpainting 模型（Stable Diffusion v2）生成缺失像素。为了使图像扩散模型能够生成多样的全局场景结构，L-MAGIC 使用语言模型控制扩散模型在每个视角需要生成的场景内容。

除了生成 360 度场景的全景图，利用深度估计模型，L-MAGIC 还能够生成包含相机旋转及平移的沉浸式视频，以及场景的三维点云。由于无需微调，L-MAGIC 能够有效地保持语言及扩散模型的泛化性，实现多样化场景的高质量生成。

L-MAGIC 的核心是使用语言模型全自动地控制扩散模型 。如图 4 所示若用户未提供场景的文字描述，L-MAGIC 使用视觉语言模型（如 BLIP-2）基于输入图像获得场景的整体描述（line 2）。

获得场景描述后，L-MAGIC 使用如 ChatGPT 的语言模型（开源代码已支持 ChatGPT-3.5、ChatGPT-4、Llama3），使其根据整体场景描述生成各个视角的描述（line 3），并决定对该场景是否需要防止重复物体的生成（line 5，如树林里各个视角都是树是合理的，但卧室有 5 张床就比较少见，L-MAGIC 利用大语言模型的泛化性能自适应地规避不合理的重复目标）。

由于扩散模型训练数据的 bias，有时扩散模型的输出无法完全符合语言模型的 prompt 要求。为了解决该问题，L-MAGIC 再次使用视觉语言模型监督扩散模型的输出（line 14-18），如果扩散模型的输出不符合语言模型的要求，L-MAGIC 会重新进行当前视角的生成。

图 4. L-MAGIC 算法。

实验结果

如图 5 所示，L-MAGIC 在图像到 360 度场景生成及文字到 360 度场景生成任务中均达到了 SOTA。

图 5. 定量实验。

如图 6 及图 7 所示，L-MAGIC 在多样的输入及场景下均能够生成具有多样化 360 度场景结构的全景图，并且能够平滑地完成 360 度闭环。

图 6. 图像到 360 度场景生成。

图 7. 文字到 360 度场景生成

如图 8 所示，除了文字及自然图像之外，L-MAGIC 还能够使用 ControlNet 接受多样化的输入，例如深度图、设计草图等。

图 8. 更多不同模态的输入。

通过利用成熟的计算机视觉算法例如深度估计，L-MAGIC 还能够生成场景的沉浸式视频（见 presentation video）以及三维点云（图 9）。有趣的是，我们能够清晰地分辨海底场景点云中鱼以及珊瑚的几何结构。

图 9. 三维点云生成结果。

InSpeck 3D Mega Capturor II使用哪种软件？

EM软体建立完整的3D模型(360度)可以利用独立数字机，取得多重视角图像。接着利用InSpeck的EM软件组合这些多重视角图像。本软件不仅可以生成完整的3D模型，同时也提供许多的编辑修改功能，如降低与简化面数、编辑材质(2D/3D)与输出各种可应用的3D对象格式，例如：Softimage、3D Studio Max与MAYA。如果要将3D模型变成动画，就需要更多功能支持，如NUEBS generation、sub Surface与 morphing…等工具，协助提升生产效率并加快工作流程。

多媒体在教学中应用的几种形式

（二）模拟教学模拟教学指利用多媒体技术与仿真技术结合，用来模拟，仿真或再现一些实际中不存在或难以体验的事物，使学习者身览临其境，增强教学效果，提高教学水平，比如飞行员最初学开飞机，就不可能每们学生都使用实际的飞机进行飞行训练，而是通过多媒体计算机的仿真技术，给出学生营造飞行时俯冲，旋转等情形，学生只要带上数据头盔，数据手套，数据手套就可以感受真实的飞行情境，或超重或失重或旋转等，并通过数据手柄的操作控制飞行。随着对多媒体技术和仿真技术研究的深入，实现“虚拟现实”的理论方法也有很大发展，人们可以脱离昂贵的专用硬件或辅助设备（如头盔，数据手套，高分辨率的图形工作站等）来进行虚拟，近年来，人们开始使用360度全景摄影技术所拍摄的高质量图像来生成逼真的虚拟情景，它允许用户在windows操作系统或是macintosh微机的操作系统支持下，在普通微机上（无需用高档的图形工作站）只利用一只鼠标和一个键盘（无需戴头盔和数据手套）就能真实地感受到和vr技术中一样虚拟情景，并且，这种表现虚拟环境的图像可以压缩为很小的空间，占很少的内存，可见，随着这种技术的发展，虚拟环境教学将会在教学中得于广泛应用。（三）交互式教学由于计算机多媒体技术及网络技术的发展和进下融合，学生既可以通过多媒体课件进行个人自主学习，也可以借助于网络资源进行协作式自主学习，这两种学习方式具有共同特点——都是一种双向的交互式学习方式。多媒体和网络技术由于能够提供图文并茂的多种感官的综合刺激机，非常有利于情境的创设和保持，界面友好，形象直观，而且还按照超文本，超链接方式组织管理学科知识和各种教学信息，提供丰富多彩的人机交互方式，学生可以得到立即反馈，了解自已学习的结果，从而调整以后的学习方法或学习程序，这种交互式学习有利于激发学生学习兴趣，发挥学生的认知主体作用。（四）现代远程教学所谓现代远程教学主要指基于计算机网络的开族式教学系统，网络传播模式的出现，使用于单位计算机的多媒体课件可以发布到广阔的网络空间，形成网络课程，通过网络课程的开设，学生可以不分年龄大小，不拘泥于固定的时间，空间按需进行学习，即根据自已的需要和当前水平选择不同学校，不同的教师，在自已合适的时间内进行学习，所以，基于计算机网络的传播方便利，更为广阔的学习交流方式，同时，也是实现知识经济中的终身学习的一种重要方式。

720VR全景图片制作流程是什么？

720度全景VR照片的原理一般来说，全景照片是指水平方向的360度全景照片，而720度全景照片是指视角超过人类正常视角的图像，而全景照片是指水平方向的360度全景照片和上下方向的360度全景照片，可以看到“天地”的全景。全景图实际上只是一幅平面图，它是通过以一定的几何关系映射周围的场景而生成的。只有通过全景播放器的校正过程，它才能成为三维全景。 720度全景VR照片拍摄方法有两种主要方式:1.普通相机按照一定的角度拍摄一定的照片，并通过电脑后期制作而成。 2.集成全景相机的准应用一般来说我们都是可以直接使用普通相机拍摄全景普通相机拍照时，视角非常有限，不能一次拍摄整个空间的照片。因此，720度全景摄影效果只能通过拼接多张照片来实现。因此，需要在空间的同一位置获取不同的空间角度。从不同的空间角度拍照。我们将拍摄角度分为5个区域，即水平360度、向上倾斜360度、向下倾斜360度、顶部和底部。为了在相同的空间位置拍摄，三脚架是一个必不可少的工具。同时，还需要广角镜头来拍摄。拍摄时，镜头的焦距是固定的，焦距是无限的。焦距和聚焦距离不能改变。此外，使用720专用全景摄影实现更精确的比例计算，并确保拍摄期间光轴位置不会改变。当然，使用普通的三脚架也能拍摄720°全景照片，但要求相对高一些。正式开始拍摄，首先在水平方向拍摄360张照片，将每张照片顺时针/逆时针旋转一定角度，以确保旋转角度的内容有30%与前一张一致，直到拍摄完所有360张照片。然后是斜顶拍摄，还要求30%的内容与水平照片一致，30%的左右内容一致，直到完成360度拍摄。如果镜头焦距较长，可能需要继续拍摄以倾斜的上角度拍摄的360度照片，再转一圈。同样，斜坡底部的照片也是一样的拍摄手法。最后是拍摄顶部和底部的照片，当拍摄底部，你需要移动三脚架拍摄，以避免三脚架进入图片。拍摄完成后，我们需要使用PTGui。拼接照片，软件提供两个版本的苹果和Win，可以说功能是非常强大。使用PTGui专业软件拼接1点击对齐图像，让电脑计算重叠区域进行拼接2正确调整不正确的控制点3在相关图片中添加控制点并纠正错位。 4校正控制点5曝光、色彩调整，路人利用蒙版工具去掉。 6照片导出，最终，它会以2: 1的比例导出到全景图片。