华南理工发布Mini 2B多模态新SOTA!华科

新智元报道

编辑:LRST 好困

【新智元导读】 Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。

最近,提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。

绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。

然而,由于对图像的切分操作,不可避免会对目标、联通区域带来割裂,导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,由于文字端经常被中断。

针对这一挑战,华中科技大学和华南理工大学最近联合发布一个多模态大模型Mini-Monkey,使用了可插拔的多尺度自适应策略(MSAC)的轻量化多模态大模型。

Mini-Monkey自适应生成多尺度表示,允许模型从各种尺度中选择未分割的对象,其性能达到了2B多模态大模型的新SOTA。

论文地址:https://arxiv.org/pdf/2408.02034

项目地址:https://github.com/Yuliang-Liu/Monkey

为了减轻MSAC带来的计算开销,我们提出了一种有效压缩图像令牌的尺度压缩机制(SCM)。

Mini-Monkey不仅在文档智能的多个任务上取得了领先的性能,在通用多模态模型理解任务上也取得了一致的性能的提升,取得了2B的SOTA性能。

在OCRBench上,Mini-Monkey获得了802分,优于GLM-4v-9B等更大参数量的模型。

图3 方法框图:H-Attn代表高注意力权;L-Attn代表低注意权重;注意权重较低的令牌将被过滤;共享LLM层表示在SCM中使用LLM的块层

研究背景

多模态大型语言模型(MLMM)在近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。

一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就,但由于处理分辨率有限,以前的多模态大语言模型并没有很好地实现详细的场景理解。

图1 切分在通用物体上引起的锯齿效应:(a)输入图像;(b)切分扩大分辨率策略;(c)有重叠的切分扩大分辨率策略;(d)多尺度适应性切分策略

研究者开始通过扩大图像的输入分辨率来解决这个问题。切分策略是最常用的方法之一。例如,Monkey,LLaVA 1.6,InternVL 1.5和LLama3-V等。

尽管多模态大型语言模型取得了重大进展,但由于切分策略,在详细场景理解方面仍然存在挑战。

对图像的切分操作不可避免地会分割物体和连接区域,从而削弱了MLLM识别小物体或不规则形状物体的能力,特别是在文档理解的背景下。

这种策略将引入两种类型的语义不连贯:

1. 如果一个对象或字符被分割,它可能无法被识别。例如,切分后的鼻子看起来非常像猴子,如图1(b)所示;

2. 如果对一个词或句子进行分词,会造成被分词的语义损害。例如,单词「Classrooms」可能被分为「Class」和「rooms」,这会对分割后的单词造成语义损害。

为简单起见,作者称这个问题为锯齿效应。一个非常直接的想法是采用重叠切分策略来解决这个问题,如图1(c)所示。

然而,作者发现重叠切分策略引入了某些幻觉,导致性能下降而不是提高。

方法思路

作者提出了Mini-Monkey,一个轻量级的多模态大型语言模型,旨在减轻切分策略引起的锯齿效应。方法框图如图2所示。

图2 裁切在文字图像上引起的锯齿效应。

与直接切分输入图像的现有方法不同,Mini-Monkey采用了一种即插即用的方法称为多尺度自适应切分策略(MSAC)。

MSAC可以在不同尺度的特征之间进行有效的互补,如图1(d)所示。

多尺度自适应切分策略(MSAC)

MSAC先对这些网格进行分层操作,根据它们的纵横比将它们分成三组。作者将为每个图层选择一个宽高比。不同的分层为模型提供不同的信息。

详细层负责提供详细信息。它既限制了最大图像分辨率和最小图像分辨率,使图像尽可能大,使图像中的物体更清晰。由于使用了切分策略来剪裁图像,该层生成的图像可能存在语义不一致。

因此,作者利用自适应层与细节层协同,使模型能够从各种尺度中选择未分割的对象。自适应层将根据细节层自适应生成纵横比,确保细节层上的切分线与自适应层上的切分线不重叠,进而避免了同一个物体在不同层上被切分两次。这个过程确保了细节层和自适应层为模型提供了不同的语义信息和视觉特征。

尺度压缩机制

MSAC可能会引入一些额外的计算开销。因此,作者提出了一种尺度压缩机制(SCM),用于有计算开销限制的情况。SCM是一个不用训练并且无参数的机制,以减少计算开销。

作者选择自适应层的视觉Tokens、全局层的视觉Tokens和文本Tokens来关注细节层的视觉标记,进而生成注意力图,然后将注意力图Top K的视觉特征提取出来。

一个训练好的LLM可以根据输入问题有效地选择必要的视觉特征。因此,SCM利用LLM的第一层和第二层来选择视觉Tokens,而不生成任何额外的参数。

Mini-Monkey最强2B多模态大模型

作者在通用多模态理解和文档理解上测试了他们的方法,实验结果表明,Mini-Monkey在2B参数量的情况下,同时在通用多模态理解和文档理解上取得了最好的性能。

表1 通用多模态理解上的结果

表2 文档理解上的结果

作者将提出的MSAC和现有的方法对比,第一行是动态切分的方法,第二行是固定分辨率切分的方法,第三行是有重叠的切分,第四行是多尺度策略S2。

表3 与不同的切分策略进行对比

MSAC可以应用到不同的多模态架构上,稳定提点

同时作者也将MSAC应用到其他的方法进行对比,可以看到同时在通用多模态理解和文档理解任务上都有一致的提升。

表4 将MSAC应用到不同的框架上

有效缓解由切分增大分辨率导致的「后遗症」

同时作者也提供了一些定性的分析,如图4所示。作者对切分到的位置进行提问,比如被切分到的「classrooms」和「school」。

可以看到,Mini-Monkey通过MSAC可以有效的缓解由切分增大分辨率导致的「后遗症」。

图4 定性结果:(a)输入图像和Ground Truth;(b)采用重叠切分策略的结果,OSC表示重叠切分策略;(c)internv2-2b和internv2-26b的结果;(d)Mini-Monkey的结果

可视化对比

Mini-Monkey能准确的提取模糊的古籍里面的文字内容,而MiniCPM-V 2.6和InternVL2-2B都漏掉了比较多的文字,GPT4-O拒绝回答:

(a)输入图片

(b)Mimi-Monkey:准确识别出所有文字

(c)MiniCPM-V 2.6:漏掉了很多文字。

(d)InternVL2-2B:漏掉了一整句比较模糊的文字

(e)GPT-4o:拒绝回答

总结

使用切分扩大分辨率的方法经常分割对象和连接区域,这限制了对小的或不规则形状的对象和文本的识别,这个问题在轻量级的MLLM中尤为明显。

在这项研究中,作者提出了一个取得SOTA性能的2B多模态大模型Mini-Monkey,旨在解决现有切分策略的局限性,以提高MLLM处理高分辨率图像的能力。

Mini-Monkey采用了一种多尺度自适应切分策略(MSAC),生成多尺度表示,允许模型在不同尺度上选择未分割的对象,进而缓解了这个问题。

同时,作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。

参考资料:

[1] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.

[2] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[C]//International conference on machine learning. PMLR, 2023: 19730-19742.

[3] Liu Y, Yang B, Liu Q, et al. Textmonkey: An ocr-free large multimodal model for understanding document[J]. arXiv preprint arXiv:2403.04473, 2024.

[4] Bai J, Bai S, Yang S, et al. Qwen-vl: A frontier large vision-language model with versatile abilities[J]. arXiv preprint arXiv:2308.12966, 2023.

[5] Dubey A, Jauhri A, Pandey A, et al. The Llama 3 Herd of Models[J]. arXiv preprint arXiv:2407.21783, 2024.


横扫40+个SOTA!22位华人共同打造佛罗伦萨模型,一统图像视频文本,含9亿图像-文本对

22位华人共创的佛罗伦萨模型引领多模态领域

微软近期发布的新模型Florence,旨在通过一个统一的框架,横扫计算机视觉的40+个SOTA(最先进水平)。 这款模型由22位华人开发者联手打造,旨在解决多模态任务,如图像分类、目标检测等,展现了强大的跨模态处理能力。 Florence不仅在静态图像上表现出色,还扩展到了动态视频和多模态信息,如文字和深度数据。

多模态研究借鉴了人类处理多样世界的经验,需要计算机视觉模型具备跨任务和跨信息输入的适应性。 OpenAI的CLIP和Google的ALIGN等模型已经证明了多模态学习的潜力。 Florence在此基础上更进一步,不仅保持了跨模态的共享表征,还增加了从粗到精的表征能力,以及对视频和多模态的兼容性。

通过FLD-900M数据集,包含9亿对图像-文本对的庞大训练数据,Florence展示了在各类基准测试中的卓越性能,如ImageNet-1K的83.74% Top-1准确率和COCO的62 mAP。 该模型不仅在zero-shot和微调任务上超越了前人,还展示了在VQA和视频识别上的强大适应性。

未来,Florence项目将拓展至更多视觉任务和应用,如深度估计和视觉-语言任务,为现实世界的视觉应用提供强有力的基础。 这一成就标志着计算机视觉领域向着更加通用、理解力更强的模型迈出了重要一步。

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

引领视频问答的新里程碑,北京大学的研究团队带来了革命性的Video-LLaVA,一款强大的视觉语言大模型,它彻底革新了我们对多媒体内容的理解。 这款创新模型不仅能够接收图片,还能解析视频,展现出了卓越的性能,揭示了统一输入在提升大模型视觉理解能力中的关键作用。 Video-LLaVA巧妙地采用了LanguageBind的对齐技术,摒弃了独立编码器的繁琐,其训练策略巧妙分为两阶段:第一阶段,利用LAION-CC-SBU数据集进行视觉理解的深度挖掘;第二阶段,通过融合LLaVA和Video-ChatGPT的数据,进行更为精细的微调,强化模型的对话学习能力。

Video-LLaVA通过对话数据集,无论是基础还是复杂的视觉理解任务,都能轻松应对。 它的出色表现为多模态融合问题提供了全新的解决方案,尤其是在处理视频和图片理解时,其一致性表示方法显著减少了幻觉现象,并显著提升了光学字符识别(OCR)的准确性。 预先对齐的视觉特征是Video-LLaVA理解视频和图片的关键,它通过联合训练的方式,显著提升了整体理解能力。

要深入了解Video-LLaVA的强大之处,不妨访问其GitHub仓库:,以及探索Huggingface平台上的资源:。 这款模型的出现,无疑为大语言模型如ChatGPT的未来发展开辟了新的可能,预示着视频问答的未来将更加智能且直观。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/kuaibao/12667.html
贵州省国土空间规划 2021
顺其自然 希尔谈2028阵容 先放一边 看看球员们如何继续进