您现在的位置是：首页 > 经典句子

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.20-2024.03.25

作者：胡椒时间：2024-04-27 16:23:25分类：经典句子

简介　　文章浏览阅读1.1k次，点赞20次，收藏13次。多模态大语言模型（MLLMs）已经证明了其感知静态图像中物体的能力，但其在视频相关任务（如物体追踪）中的应用仍未得到充分研究。造成这种探索不足的主要原因有两个。首先，需要在大规模视频数据集上进行广泛的预训练，使

点击全文阅读

文章目录~

1.Elysium: Exploring Object-level Perception in Videos via MLLM2.An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models3.Open-Set Recognition in the Age of Vision-Language Models4.CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification5.Learning To Guide Human Decision Makers With Vision-Language Models6.If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions7.Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion8.Cross-domain Multi-modal Few-shot Object Detection via Rich Text9.Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models10.Enhancing Video Transformers for Action Understanding with VLM-aided Training11.Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval12.Centered Masking for Language-Image Pre-Training13.VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification14.A Multimodal Approach for Cross-Domain Image Retrieval15.MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration16.Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning17.VidLA: Video-Language Alignment at Scale18.Few-Shot Adversarial Prompt Learning on Vision-Language Models19.Can 3D Vision-Language Models Truly Understand Natural Language?20.MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?21.MyVLM: Personalizing VLMs for User-Specific Queries22.PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model23.LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding24.Unsupervised Audio-Visual Segmentation with Modality Alignment25.Empowering Segmentation Ability to Multi-modal Large Language Models26.C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion27.Multi-Modal Hallucination Control by Visual Information Grounding28.RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition29.Bridge the Modality and Capacity Gaps in Vision-Language Model Selection30.HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models31.AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation32.SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

1.Elysium: Exploring Object-level Perception in Videos via MLLM

标题:极乐世界通过 MLLM 探索视频中的物体级感知

author:Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16558v1

摘要：
多模态大语言模型（MLLMs）已经证明了其感知静态图像中物体的能力，但其在视频相关任务（如物体追踪）中的应用仍未得到充分研究。造成这种探索不足的主要原因有两个。首先，需要在大规模视频数据集上进行广泛的预训练，使 MLLM 具备感知多帧物体和理解帧间关系的能力。其次，在大型语言模型（LLM）的上下文窗口内处理大量帧会带来巨大的计算负担。为了应对第一个挑战，我们引入了 ElysiumTrack-1M，这是一个大规模视频数据集，并搭配了新颖的任务：单体参照物跟踪（RSOT）和视频参照表达生成（Video-REG）。ElysiumTrack-1M 包含 127 万个带注释的视频帧以及相应的对象框和描述。利用这个数据集，我们对 MLLM 进行了训练，并提出了一种标记压缩模型 T-Selector，以应对第二个挑战。我们提出的方法，即 Elysium：Elysium: Exploring Object-level Perception in Videos via MLLM 是一种端到端可训练 MLLM，它首次尝试在视频中执行对象级任务，而无需任何额外插件或专家模型。

2.An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models

标题:中间融合 ViT 可实现扩散模型中文本与图像的高效对齐

author:Zizhao Hu, Shaochong Jia, Mohammad Rostami

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16530v1

摘要：
扩散模型已被广泛用于条件数据跨模态生成任务，如文本到图像和文本到视频。然而，最先进的模型仍然无法将生成的视觉概念与语言中的高级语义（如物体数量、空间关系等）相一致。我们从多模态数据融合的角度切入这一问题，研究不同的融合策略会如何影响视觉-语言对齐。我们发现，与广泛使用的在预训练图像特征空间中对文本进行调理的早期融合相比，专门设计的中间融合可以：(i) 通过提高生成质量促进文本到图像的配准；(ii) 通过减少低等级文本到图像的注意力计算提高训练和推理效率。我们使用 MS-COCO 数据集上的文本到图像生成任务进行了实验。我们在 U 型 ViT 主干网的两种常见调节方法上比较了我们的中间融合机制和经典的早期融合机制。与采用早期融合的强 U-ViT 基线相比，我们的中间融合模型获得了更高的 CLIP 分数和更低的 FID，FLOPs 减少了 20%，训练速度提高了 50%。

3.Open-Set Recognition in the Age of Vision-Language Models

标题:视觉语言模型时代的开放集识别技术

author:Dimity Miller, Niko Sünderhauf, Alex Kenna, Keita Mason

publish:31 pages, under review

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16528v1

摘要：
视觉语言模型（VLM）是开放集模型吗？我们对这个问题的回答显然是否定的–视觉语言模型通过其有限的查询集引入了封闭集假设，使其容易受到开放集条件的影响。我们系统地评估了 VLMs 的开放集识别能力，发现它们经常会误判查询集中未包含的对象，从而导致在调整为高召回率时出现令人震惊的低精度，反之亦然。我们表明，天真地增加查询集的大小以包含越来越多的类别并不能缓解这一问题，反而会导致任务性能和开放集性能的下降。我们对 VLM 时代的开集问题进行了修订定义，定义了新的基准和评估协议，以促进这一重要领域的标准化评估和研究，并在一系列 VLM 分类器和对象检测器上评估了基于预测不确定性和专用负嵌入的有前途的基准方法。

4.CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification

标题:CMViM：用于 AD 分类的 3D 多模态表征学习的对比屏蔽 Vim 自动编码器

author:Guangqian Yang, Kangrui Du, Zhihan Yang, Ye Du, Yongping Zheng, Shujun Wang

publish:11 pages, 1 figure

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16520v1

摘要：
阿尔茨海默病（AD）是一种无法治愈的神经退行性疾病，会导致认知和功能退化。由于无法治愈，因此及时准确地诊断阿尔茨海默病至关重要，而这是一个依赖于多种因素和多模态数据的复杂过程。虽然人们已经成功地将多模态表征学习整合到了医学数据集中，但对三维医学图像的关注却很少。在本文中，我们提出了 Contrastive Masked Vim Autoencoder (CMViM)，这是首个专为三维多模态数据定制的高效表征学习方法。我们提出的框架建立在遮罩 Vim 自动编码器的基础上，用于学习统一的多模态表示和三维医学图像中包含的长依赖关系。我们还引入了模态内对比学习模块，以增强多模态 Vim 编码器对同一模态中的判别特征建模的能力，并引入了模态间对比学习模块，以缓解模态间的表征错位。我们的框架包括两个主要步骤：1) 将 Vision Mamba（Vim）纳入遮罩自动编码器，以高效地重建三维遮罩多模态数据。2）从模态内和模态间两方面利用对比学习机制调整多模态表征。我们的框架经过了 ADNI2 数据集的预训练和验证，并在 AD 分类的下游任务中得到了验证。与其他最先进的方法相比，所提出的 CMViM 的 AUC 性能提高了 2.7%。

5.Learning To Guide Human Decision Makers With Vision-Language Models

标题:学会用视觉语言模型指导人类决策者

author:Debodeep Banerjee, Stefano Teso, Burcu Sayin Grunel, Andrea Passerini

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16501v1

摘要：
越来越多的人开始关注开发人工智能，以协助人类在医疗诊断等高风险任务中做出决策，从而提高决策质量并减轻认知压力。主流方法是将专家与机器学习模型结合起来，将更安全的决策交给机器学习模型，从而让前者专注于需要他们关注的案例。然而，这种 "文本{责任分离}"设置并不适用于高风险场景。一方面，专家最终可能会因为 "锚定偏差 "而过度依赖机器的决策，从而失去监管机构为确保人工智能值得信赖而日益要求的人工监督。另一方面，在模型弃权的决策（通常是最难的决策）上，专家完全得不到帮助。作为一种补救措施，我们引入了textit{learning to guide}（LTG）–一种替代框架，在这个框架中，机器提供对决策有用的textit{guidance}，而人类则完全负责做出决策，而不是从人类专家手中夺取控制权。为了确保指导是（textit{可解释的）和（textit{特定任务的），我们开发了（textit{方法），这是一种通过利用少量人类反馈，将（textit{任何}视觉语言模型）转化为文本指导生成器的方法。我们的实证评估强调了该方法在具有挑战性的现实世界医疗诊断任务中的前景。

6.If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions

标题:如果 CLIP 会说话：通过首选概念描述理解视觉语言模型表征

author:Reza Esfandiarpoor, Cristina Menghini, Stephen H. Bach

publish:Code: https://github.com/BatsResearch/ex2

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16442v1

摘要：
最近的研究通常认为视觉语言模型（VLM）的表征是基于形状等视觉属性的。然而，目前还不清楚视觉语言模型在多大程度上会优先使用这些信息来表示概念。我们提出了 “提取和探索”（Extract and Explore，EX2）这一新颖的方法，用于描述 VLM 的重要文本特征。EX2 利用强化学习使大型语言模型与 VLM 偏好保持一致，并生成包含 VLM 重要特征的描述。然后，我们检查这些描述，找出有助于 VLM 表征的特征。我们发现，虚假描述在 VLM 表征中起着重要作用，尽管它们没有提供任何有用信息，例如，点击放大 CONCEPT 的照片。更重要的是，在信息性描述中，VLMs 主要依赖于栖息地等非视觉属性来表示视觉概念。此外，我们的分析表明，不同的 VLM 在表述时会优先考虑不同的属性。总之，我们的研究表明，VLMs 并不能简单地将图像与场景描述相匹配，非视觉甚至虚假的描述都会对它们的表征产生重大影响。

7.Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

标题:文本-IF：利用语义文本指导实现降解感知和交互式图像融合

author:Xunpeng Yi, Han Xu, Hao Zhang, Linfeng Tang, Jiayi Ma

publish:Accepted by CVPR 2024

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16387v1

摘要：
图像融合的目的是将来自不同源图像的信息结合在一起，生成一幅具有全面代表性的图像。现有的融合方法通常无法处理低质量源图像中的退化问题，也无法满足多种主观和客观需求。为了解决这些问题，我们引入了一种新方法，利用语义文本指导图像融合模型来完成降级感知和交互式图像融合任务，称为文本-IF。它创新性地将经典图像融合扩展到文本引导图像融合，并能在融合过程中协调解决降级和交互问题。通过文本语义编码器和语义交互融合解码器，Text-IF 可以实现一体化的红外和可见光图像降级感知处理以及交互式灵活融合结果。这样，Text-IF 不仅实现了多模态图像融合，还实现了多模态信息融合。大量实验证明，与 SOTA 方法相比，我们提出的文本引导图像融合策略在图像融合性能和降级处理方面具有明显优势。代码见 https://github.com/XunpengYi/Text-IF。

8.Cross-domain Multi-modal Few-shot Object Detection via Rich Text

标题:通过丰富的文本进行跨域多模态少镜头物体检测

author:Zeyu Shangguan, Daniel Seita, Mohammad Rostami

date Time:2024-03-24

paper pdf:http://arxiv.org/pdf/2403.16188v1

摘要：
跨模态特征提取和整合可以生成更丰富的特征，从而稳步提高少镜头学习任务的性能。然而，现有的多模态物体检测（MM-OD）方法在面临显著的领域偏移时会出现性能下降，并且样本不足。我们假设，丰富的文本信息可以更有效地帮助模型建立视觉实例与其语言描述之间的知识关系，并有助于缓解领域偏移。具体来说，我们研究了 MM-OD 的跨域少点泛化（CDMM-FSOD），并提出了一种基于元学习的多模态少点目标检测方法，该方法利用丰富的文本语义信息作为辅助模态，实现 FSOD 的域适应。我们提出的网络包含：(i) 多模态特征聚合模块，用于对齐视觉和语言支持特征嵌入；(ii) 富文本语义校正模块，利用双向文本特征生成来加强多模态特征对齐，从而增强模型的语言理解能力。我们在常见的标准跨域物体检测数据集上对我们的模型进行了评估，结果表明我们的方法大大优于现有的 FSOD 方法。

9.Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models

标题:利用语义重构减轻视觉语言模型中的幻觉

author:Minchan Kim, Minyeong Kim, Junik Bae, Suhwan Choi, Sungkyung Kim, Buru Chang

date Time:2024-03-24

paper pdf:http://arxiv.org/pdf/2403.16167v1

摘要：
视觉语言模型中的幻觉对其可靠性提出了巨大挑战，尤其是在生成长字幕时。目前的方法无法准确识别和减少这些幻觉。为了解决这一问题，我们引入了 ESREAL，这是一种新型的无监督学习框架，旨在通过对幻觉标记的精确定位和惩罚来抑制幻觉的产生。最初，ESREAL 会根据生成的标题创建一个重建图像，并将其相应区域与原始图像的相应区域对齐。这种语义重建有助于识别生成标题中是否存在标记级幻觉以及幻觉的类型。随后，ESREAL 根据幻觉类型评估对齐区域的语义相似性，从而计算标记级幻觉分数。最后，ESREAL 采用近端策略优化算法，根据标记级幻觉得分有选择性地惩罚幻觉标记。我们的框架显著减少了 LLaVA、InstructBLIP 和 mPLUG-Owl2 中的幻觉，在 CHAIR 指标上分别减少了 32.81%、27.08% 和 7.46%。这一改进完全是通过图像本身的信号实现的，无需任何图像-文本对。

10.Enhancing Video Transformers for Action Understanding with VLM-aided Training

标题:利用 VLM 辅助培训增强视频转换器的动作理解能力

author:Hui Lu, Hu Jian, Ronald Poppe, Albert Ali Salah

date Time:2024-03-24

paper pdf:http://arxiv.org/pdf/2403.16128v1

摘要：
由于视觉变换器（ViTs）能够提取相关的时空视频嵌入，因此是目前视频动作理解领域表现最好的模型。然而，它们在不同领域或数据集上的通用性受到一定限制。与此相反，视觉语言模型（VLM）表现出了卓越的泛化性能，但目前还无法处理视频。因此，它们无法提取对动作理解至关重要的时空模式。在本文中，我们提出了四层提示（FTP）框架，利用了 ViTs 和 VLMs 的互补优势。我们保留了 ViTs 强大的时空表示能力，但通过将其与 VLM 输出相匹配，改进了视觉编码，使其更加全面和通用。FTP 框架增加了四个特征处理器，分别关注视频中人类动作的特定方面：动作类别、动作组件、动作描述和上下文信息。VLM 仅在训练过程中使用，推理的计算成本极低。我们的方法始终保持着最先进的性能。例如，我们在 Kinetics-400 和 Something-Something V2 上分别取得了 93.8% 和 83.4% 的最高准确率，分别比 VideoMAEv2 高出 2.8% 和 2.6%。

11.Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval

标题:知识增强型双流零镜头合成图像检索

author:Yucheng Suo, Fan Ma, Linchao Zhu, Yi Yang

publish:CVPR 2024

date Time:2024-03-24

paper pdf:http://arxiv.org/pdf/2403.16005v1

摘要：
我们研究了零镜头合成图像检索（ZS-CIR）任务，即在给定参考图像和描述的情况下检索目标图像，而无需在三重数据集上进行训练。之前的研究通过将参考图像特征投影到文本嵌入空间来生成伪单词标记。然而，它们只关注全局视觉表示，而忽略了细节属性的表示，例如颜色、对象数量和布局。为了应对这一挑战，我们提出了一个知识增强型双流零镜头合成图像检索框架（KEDs）。KEDs 通过加入一个数据库来隐式地模拟参考图像的属性。数据库通过提供相关图像和标题来丰富伪词标记，强调各方面的共享属性信息。这样，KEDs 就能从不同角度识别参考图像。此外，KEDs 还采用了额外的数据流，利用从图像-文本对中挖掘出的伪三元组，将伪单词标记与文本概念对齐。该数据流中生成的伪词块与文本嵌入空间中的细粒度语义明确对齐。在广泛使用的基准（即 ImageNet-R、COCO object、Fashion-IQ 和 CIRR）上进行的大量实验表明，KEDs 优于以前的零镜头合成图像检索方法。

12.Centered Masking for Language-Image Pre-Training

标题:语言图像预训练的中心屏蔽

author:Mingliang Liang, Martha Larson

date Time:2024-03-23

paper pdf:http://arxiv.org/pdf/2403.15837v1

摘要：
我们介绍了语言图像预训练高斯遮蔽（GLIP），这是一种新颖、直接、有效的技术，用于在视觉语言模型预训练期间遮蔽图像斑块。GLIP 建立在快速语言图像预训练（FLIP）的基础上，FLIP 在训练 CLIP 模型时随机遮挡图像斑块。GLIP 使用高斯分布取代了随机遮挡，其灵感来自图像中心图像斑块的重要性。正如我们的实验结果所示，GLIP 保持了与 FLIP 相同的计算节省，同时提高了一系列下游数据集和任务的性能。我们的实验结果表明，GLIP 的优点很容易获得，不需要对高斯进行微妙的调整，也适用于包含没有明显中心焦点的图像的数据集。

13.VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification

标题:VLM-CPL：来自视觉语言模型的共识伪标签，用于无人类注释的病理图像分类

author:Lanfeng Zhong, Xin Liao, Shaoting Zhang, Xiaofan Zhang, Guotai Wang

publish:Under review

date Time:2024-03-23

paper pdf:http://arxiv.org/pdf/2403.15836v1

摘要：
尽管深度学习方法在病理图像分类方面取得了不俗的成绩，但它们严重依赖标记数据，需要大量的人工标注工作。在本研究中，我们利用预先训练好的视觉语言模型（VLM），提出了一种新颖的免人工标注病理图像分类方法。在没有人工标注的情况下，训练集的伪标签是通过利用 VLM 的零点推理能力获得的，而由于预训练数据和目标数据集之间的域偏移，训练集可能包含大量噪声。为了解决这个问题，我们引入了 VLM-CPL，这是一种基于共识伪标签的新方法，它将两种噪声标签过滤技术与半监督学习策略相结合。具体来说，我们首先利用输入的多个增强视图，通过 VLM 的零点推理，获得基于提示的带有不确定性估计的伪标签。然后，利用 VLM 的特征表示能力，我们通过特征空间中的样本聚类获得基于特征的伪标签。我们引入了 “提示-特征共识”，根据两类伪标签之间的共识来选择可靠的样本。通过剔除低质量的伪标签，我们进一步提出了高置信度交叉监督（HCS），以从具有可靠伪标签的样本和其余未标签样本中学习。实验结果表明，我们的方法在 HPH 和 LC25K 数据集上分别获得了 87.1% 和 95.1% 的准确率，在很大程度上优于现有的零点分类和噪声标签学习方法。代码见 https://github.com/lanfz2000/VLM-CPL。

14.A Multimodal Approach for Cross-Domain Image Retrieval

标题:跨域图像检索的多模态方法

author:Lucas Iijima, Tania Stathaki

date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15152v1

摘要：
图像生成器越来越受欢迎，并迅速改变了数字内容的创建方式。借助最新的人工智能技术，公众正在生成数以百万计的高质量图像，这不断激励着研究界不断挑战生成模型的极限，以创建更复杂、更逼真的图像。本文的重点是跨域图像检索（CDIR），它可以通过确定数据集中图像之间的相似程度，作为检测生成图像集合的额外工具。一个理想的检索系统应能通用于多个领域（如照片、图画和绘画）中未见过的复杂图像。为了实现这一目标，我们提出了一种新颖的标题匹配方法，利用在大型数据集上预先训练的多模态语言-视觉架构。我们在 DomainNet 和 Office-Home 数据集上对该方法进行了测试，结果表明，与文献中最新的跨域图像检索方法相比，该方法始终保持着最先进的性能。为了验证人工智能生成图像的有效性，该方法还在一个由 Midjourney 收集的样本组成的数据库中进行了测试，Midjourney 是一个广泛使用的内容创建生成平台。

15.MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration

标题:MM-Diff：通过多模态条件整合实现高保真图像个性化

author:Zhichao Wei, Qingkun Su, Long Qin, Weizhi Wang

date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15059v1

摘要：
基于扩散模型的免调整个性化图像生成技术的最新进展令人印象深刻。然而，为了提高主体保真度，现有的方法要么重新训练扩散模型，要么为其注入密集的视觉嵌入，这两种方法的泛化能力和效率都很差。此外，由于交叉注意机制不受限制，这些方法在生成多主体图像时也会出现问题。在本文中，我们提出了 MM-Diff，这是一个统一且无需调整的图像个性化框架，能够在数秒内生成单个和多个主体的高保真图像。具体来说，为了同时增强文本一致性和主体保真度，MM-Diff 利用视觉编码器将输入图像转换为 CLS 和补丁嵌入。CLS 嵌入一方面用于增强文本嵌入，另一方面与补丁嵌入一起得出少量细节丰富的主体嵌入，通过精心设计的多模态交叉注意机制，将这两种嵌入有效地整合到扩散模型中。此外，MM-Diff 还在训练阶段引入了交叉注意图约束，确保在推理过程中灵活地进行多主体图像采样，而无需任何预定义输入（如布局）。大量实验证明，MM-Diff 的性能优于其他领先方法。

16.Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning

标题:卡通幻觉检测：姿势感知语境视觉学习

author:Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Sanghyun Seo

publish:11 pages, 12 figures, 1 table, Project page:
https://gh-bumsookim.github.io/Cartoon-Hallucinations-Detection/

date Time:2024-03-22

paper pdf:http://arxiv.org/pdf/2403.15048v2

摘要：
大规模文本到图像（TTI）模型已成为各种生成领域生成训练数据的常用方法。然而，视觉幻觉（包含感知上的关键缺陷）仍然是一个令人担忧的问题，尤其是在卡通人物等非写实风格的图像中。我们针对由 TTI 模型生成的卡通人物图像提出了一种新颖的视觉幻觉检测系统。我们的方法利用 RGB 图像和姿势信息，将姿势感知上下文视觉学习（PA-ICVL）与视觉语言模型（VLMs）相结合。通过结合来自微调姿势估计器的姿势指导，我们使 VLM 能够做出更准确的决策。实验结果表明，与仅依赖 RGB 图像的基线方法相比，我们在识别视幻觉方面取得了重大改进。这项研究通过减少视觉幻觉来推动 TTI 模型的发展，从而拓展了其在非逼真领域的应用潜力。

17.VidLA: Video-Language Alignment at Scale

标题:VidLA：视频语言大规模对齐

author:Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi

publish:Accepted to CVPR 2024

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14870v1

摘要：
在本文中，我们提出了大规模视频语言对齐方法 VidLA。以往的视频语言配准方法有两大局限。首先，它们无法捕捉短程和长程时间依赖性，而且通常采用复杂的分层深度网络架构，难以与现有的预训练图像-文本基础模型集成。为了有效解决这一局限性，我们采用了简单的网络架构，并使用一组以分层方式在不同时间分辨率下运行的数据标记，以考虑视频的时间分层性质。通过采用简单的双塔架构，我们能够用预先训练好的图像-文本基础模型来初始化我们的视频-语言模型，从而提高最终性能。其次，现有的视频语言配准工作由于缺乏语义配准的大规模训练数据而举步维艰。为了克服这一问题，我们利用最新的 LLM，策划了迄今为止最大的视频语言数据集，并提供了更好的视觉基础。此外，与只包含短片的现有视频-文本数据集不同，我们的数据集丰富了不同时长的视频片段，以帮助我们的时间分层数据标记在不同时间尺度上提取更好的表征。总之，实证结果表明，我们提出的方法在多个检索基准（尤其是在较长的视频上）上超越了最先进的方法，在分类基准上的表现也很有竞争力。

18.Few-Shot Adversarial Prompt Learning on Vision-Language Models

标题:视觉语言模型上的少量对抗性提示学习

author:Yiwei Zhou, Xiaobo Xia, Zhiwei Lin, Bo Han, Tongliang Liu

publish:25 pages, 13 tables, 8 figures

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14774v1

摘要：
深度神经网络在难以察觉的对抗性扰动面前的脆弱性引起了广泛关注。受视觉语言基础模型成功的启发，之前的研究通过将对抗性视觉特征与文本监督相匹配，实现了零镜头对抗鲁棒性。然而，在实际应用中，由于适应成本高、文本监督效果不理想、自然泛化能力不可控等问题，这些模型的鲁棒性仍不尽如人意。为了解决这些问题，我们在本文中提出了一种几发对抗提示框架，在该框架中，利用有限的数据对输入序列进行适配可显著提高对抗鲁棒性。具体来说，我们通过提供端到端从对抗示例中学习的对抗相关文本监督来实现这一目标。我们还提出了一种新颖的训练目标，它能增强多模态特征的一致性，同时鼓励在自然示例和对抗示例之间区分单模态特征。所提出的框架提供了学习对抗性文本监督的途径，它能提供卓越的跨模态对抗性对齐，并与最先进的零点对抗鲁棒性相匹配，只需 1%的训练数据。

19.Can 3D Vision-Language Models Truly Understand Natural Language?

标题:3D 视觉语言模型能否真正理解自然语言？

author:Weipeng Deng, Runyu Ding, Jihan Yang, Jiahui Liu, Yijiang Li, Xiaojuan Qi, Edith Ngai

publish:https://github.com/VincentDENGP/3D-LR

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14760v1

摘要：
三维视觉语言（3D-VL）任务的快速发展为人类与使用自然语言的实体代理或机器人进行交互开辟了新途径。尽管取得了这一进展，但我们发现了一个显著的局限性：现有的 3D 视觉语言模型对语言输入的风格非常敏感，难以理解语义相同但书写方式不同的句子。这一观察结果提出了一个关键问题：三维视觉语言模型能否真正理解自然语言？为了测试 3D-VL 模型的语言可理解性，我们首先提出了一项语言鲁棒性任务，用于在各种任务中系统地评估 3D-VL 模型，并对其在不同语言风格变体下的表现进行基准测试。重要的是，考虑到人类语言的多样性和不可预测性，这些变体在需要与人类直接互动的应用（如嵌入式机器人）中很常见。我们提出了基于人类语言特点设计的三维语言鲁棒性数据集，以促进对鲁棒性的系统研究。我们的综合评估发现，在各种 3D-VL 任务中，所有现有模型的性能都大幅下降。即使是最先进的 3D-LLM 也无法理解相同句子的某些变体。进一步的深入分析表明，现有模型的融合模块脆弱且存在偏差，这源于现有数据集的低多样性。最后，我们提出了一种由 LLM 驱动的免训练模块，从而提高了语言的鲁棒性。数据集和代码将发布在 github 上。

20.MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

标题:MathVerse：您的多模态 LLM 是否真正看到了可视化数学问题中的图表？

author:Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li

publish:46 Pages, Work in Progress, Benchmark Project Page:
https://mathverse-cuhk.github.io

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14624v1

摘要：
多模态大语言模型（MLLMs）在视觉环境中的卓越表现使其取得了令人瞩目的进步，并赢得了前所未有的关注。然而，它们在视觉数学解题中的能力仍未得到充分评估和理解。我们对当前的基准进行了研究，以便在文本问题中加入过多的视觉内容，从而在不真正解释输入图表的情况下帮助 MLLMs 推导出答案。为此，我们引入了 MathVerse，这是一个全方位的可视化数学基准，旨在对 MLLMs 进行公平、深入的评估。我们从公开资料中精心收集了 2,612 个高质量、多主题、带图表的数学问题。然后，每个问题都会被人类注释者转换成六个不同的版本，每个版本都提供了不同程度的多模态信息内容，总共有 15K 个测试样本。通过这种方法，MathVerse 可以全面评估 MLLM 是否以及在多大程度上能够真正理解用于数学推理的可视化图表。此外，我们还提出了一种思维链（CoT）评估策略，用于对输出答案进行精细评估。我们采用 GPT-4(V)来自适应地提取关键推理步骤，然后通过详细的错误分析对每个步骤进行评分，从而揭示 MLLM 的中间 CoT 推理质量，而不是天真地判断真假。我们希望 MathVerse 基准能为 MLLMs 的未来发展提供独到的见解。项目页面： https://mathverse-cuhk.github.io

21.MyVLM: Personalizing VLMs for User-Specific Queries

标题:MyVLM：针对用户特定查询的个性化 VLM

author:Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or

publish:Project page: https://snap-research.github.io/MyVLM/

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14599v1

摘要：
最近的大规模视觉语言模型（VLM）在理解和生成视觉内容的文本描述方面表现出了卓越的能力。然而，这些模型缺乏对用户特定概念的理解。在这项工作中，我们迈出了 VLM 个性化的第一步，使它们能够学习用户提供的概念并进行推理。例如，我们探索这些模型能否学会识别图像中的您，并与您交流您在做什么，从而定制模型以反映您的个人经历和关系。为了有效识别各种用户特定概念，我们为 VLM 增加了外部概念头，这些概念头就像模型的开关一样，使 VLM 能够识别给定图像中存在的特定目标概念。识别出概念后，我们将在 VLM 的中间特征空间中学习新的概念嵌入。这种嵌入的任务是引导语言模型将目标概念自然地融入其生成的响应中。我们将我们的技术应用于 BLIP-2 和 LLaVA 的个性化图像字幕，并进一步展示了它在个性化视觉问题解答中的适用性。我们的实验证明，我们有能力将学到的概念泛化到未见过的图像上，同时保留模型在无关输入上的行为。

22.PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model

标题:PSALM：利用大型多模态模型进行像素分割

author:Zheng Zhang, Yeyao Ma, Enming Zhang, Xiang Bai

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14598v1

摘要：
PSALM 是大型多模态模型（LMM）的强大扩展，用于应对分割任务的挑战。为了克服 LMM 仅限于文本输出的局限性，PSALM 加入了掩码解码器和精心设计的输入模式，以处理各种分割任务。该模式包括图像、任务指示、条件提示和掩码标记，使模型能够有效生成和分类分割掩码。PSALM 的灵活设计支持跨数据集和任务的联合训练，从而提高了性能和任务泛化能力。PSALM 在 RefCOCO/RefCOCO+/RefCOCOg、COCO Panoptic Segmentation 和 COCO-Interactive 等多个基准测试中取得了优异成绩，并在开放词汇分割、广义指代表达分割和视频对象分割等未见任务中进一步展示了零镜头能力，为计算机视觉领域的 GPT 时代迈出了重要一步。通过广泛的实验，PSALM 展示了其改变图像分割领域的潜力，充分利用了自然语言处理中 LMM 强大的视觉理解能力。代码和模型请访问 https://github.com/zamling/PSALM。

23.LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding

标题:LayoutLLM：针对丰富视觉文档理解的大型语言模型指令调整

author:Masato Fujitake

publish:LREC-COLING 2024

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14252v1

摘要：
本文提出了一种更灵活的文档分析方法–LayoutLLM，用于理解图像文档。视觉丰富的文档理解任务，如文档图像分类和信息提取，因其重要性而备受关注。现有的方法通过结合对图像、文本和布局结构的预训练意识来提高文档理解能力。然而，这些方法需要针对每个任务和数据集进行微调，而且模型的训练和运行成本高昂。为了克服这一局限，我们提出了一种新的 LayoutLLM，它将这些方法与大规模语言模型（LLM）整合在一起。通过利用现有研究在文档图像理解方面的优势和 LLMs 卓越的语言理解能力，所提出的模型经过多模态指令数据集的微调，在单一模型中完成了对文档图像的理解。我们的实验证明，在各种文档分析任务中，该模型都比基准模型有所改进。

24.Unsupervised Audio-Visual Segmentation with Modality Alignment

标题:无监督视听分割与模态对齐

author:Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiangkang Deng, Xiatian Zhu

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14203v1

摘要：
视听分割（AVS）的目的是在像素级识别视觉场景中产生特定声音的物体。目前的音视频分割方法依赖于对面具-音频对进行代价高昂的细粒度注释，因此不具备可扩展性。为了解决这个问题，我们引入了无监督 AVS，从而消除了对这种昂贵注释的需求。为了解决这个更具挑战性的问题，我们提出了一种名为 “模态对应对齐”（Modality Correspondence Alignment，MoCA）的无监督学习方法，该方法无缝集成了 DINO、SAM 和 ImageBind 等现成的基础模型。这种方法利用了它们的知识互补性，并优化了它们在多模态关联中的联合使用。最初，我们在特征空间中估计正像和负像对。对于像素级关联，我们在图像级对比学习框架内引入了视听适配器和新颖的像素匹配聚合策略。这样就能在像素级灵活连接物体外观和音频信号，同时还能容忍平移和旋转等成像变化。在 AVSBench（单目标和多目标分割）和 AVSS 数据集上进行的大量实验表明，我们的 MoCA 优于设计强大的基线方法和有监督的对应方法，尤其是在具有多个听觉目标的复杂场景中。值得注意的是，当比较 mIoU 时，MoCA 在 AVSBench（S4：+17.24%；MS3：+67.64%）和 AVSS（+19.23%）视听分割挑战中都比基线方法有了大幅提高。

25.Empowering Segmentation Ability to Multi-modal Large Language Models

标题:增强多模态大型语言模型的分割能力

author:Yuqi Yang, Peng-Tao Jiang, Jing Wang, Hao Zhang, Kai Zhao, Jinwei Chen, Bo Li

publish:10 pages, 4 figures

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14141v1

摘要：
多模态大语言模型（MLLMs）能够理解图像语言提示，并展现出令人印象深刻的推理能力。在本文中，我们通过增强 MLLM 的分割能力来扩展 MLLM 的输出。扩展后的 MLLM 既能输出对图像语言提示的语言回应，也能分割语言提示中复杂问题或疑问的重点区域。为此，现有研究成果 LISA 通过增加一个分段标记来扩大原始词嵌入，并将对话生成和以查询为重点的分段结合在一起进行微调，其中分段标记的特征用于提示分段-任意模型。虽然它们实现了卓越的分段性能，但我们发现，与原始 MLLMs 相比，对话能力下降了很多。为了保持原始 MLLMs 的对话能力，我们提出了一种新颖的 MLLMs 框架，称为 LLaVASeg，它利用思维链提示策略来指示 MLLMs 对用户查询的目标区域进行分割。首先提示 MLLMs 从复杂的用户查询中推理出目标区域的简单描述，然后根据 MLLMs 对图像的理解提取目标区域的视觉属性。这些视觉属性（如颜色和相对位置）将被用来提示下游分割模型。实验表明，所提出的方法既保持了原有的对话能力，又使 MLLMs 模型具备了很强的推理分割能力。代码见 https://github.com/YuqiYang213/LLaVASeg。

26.C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion

标题:C-TPT：通过文本特征离散对视觉语言模型的测试时间提示进行校准调整

author:Hee Suk Yoon, Eunseop Yoon, Joshua Tian Jin Tee, Mark Hasegawa-Johnson, Yingzhen Li, Chang D. Yoo

publish:ICLR 2024

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14119v2

摘要：
在深度学习中，测试时间自适应作为一种无需标注数据的模型微调方法受到了关注。最近为 CLIP 等大规模视觉语言模型提出的测试时间提示调整就是一个很好的例子。遗憾的是，这些提示主要是为了提高准确性而开发的，忽略了校准的重要性，而校准是量化预测不确定性的一个重要方面。然而，传统的校准方法依赖于大量的标注数据，这使得它们在测试时间场景中并不实用。为此，本文利用 CLIP 的固有特性，探讨了测试时间提示调整期间的校准问题。通过一系列观察，我们发现提示的选择会对 CLIP 的校准产生显著影响，其中导致更高的文本特征离散度的提示会带来更好的校准预测。我们引入了平均文本特征离散度（ATFD），确定了它与校准误差之间的关系，并提出了一种新方法–校准测试时间提示调整（C-TPT），用于优化测试时间提示，增强校准效果。通过在不同的 CLIP 架构和数据集上进行大量实验，我们发现 C-TPT 可以有效改善测试时间提示调整的校准，而无需标注数据。代码可在 https://github.com/hee-suk-yoon/C-TPT 上公开访问。

27.Multi-Modal Hallucination Control by Visual Information Grounding

标题:通过视觉信息接地控制多模态幻觉

author:Alessandro Favero, Luca Zancato, Matthew Trager, Siddharth Choudhary, Pramuditha Perera, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.14003v1

摘要：
视觉语言生成模型（VLM）很容易生成听起来似是而非的文字答案，但这些答案并不总是以输入图像为基础。我们对这种通常被称为 "幻觉 "的现象进行了研究，结果表明，这种现象源于对语言先验的过度依赖。我们的研究尤其表明，当生成的标记越多，对视觉提示的依赖性就越低，而这种行为与幻觉的出现密切相关。为了减少幻觉，我们引入了多模态互信息解码（M3ID），这是一种新的提示放大采样方法。M3ID 放大了参考图像对语言先验的影响，从而有利于生成与视觉提示互信息更高的标记。M3ID 可以在推理时应用于任何预先训练好的自回归 VLM，无需进一步训练，而且计算开销极小。如果可以选择训练，我们证明 M3ID 可以与直接偏好优化 (DPO) 搭配使用，以提高模型对提示图像的依赖性，而无需任何标签。我们的实证研究结果表明，我们的算法保持了预训练 VLM 的流畅性和语言能力，同时通过减少视觉上无依据的答案来减少幻觉。具体来说，对于 LLaVA 13B 模型，M3ID 和 M3ID+DPO 可将字幕任务中出现幻觉的对象比例分别降低 25% 和 28%，并将 POPE 等 VQA 基准的准确率分别提高 21% 和 24%。

28.RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

标题:RAR：检索和排列用于视觉识别的增强型 MLLMs

author:Ziyu Liu, Zeyi Sun, Yuhang Zang, Wei Li, Pan Zhang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

publish:Project: https://github.com/Liuziyu77/RAR

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13805v1

摘要：
CLIP（对比语言-图像预训练）利用噪声图像-文本对的对比学习，擅长识别大量候选对象，但其对广泛关联的关注阻碍了区分细粒度项目之间细微差别的精度。与此相反，多模态大语言模型（MLLMs）凭借在网络级语料库中预先训练的大量知识，在细粒度类别分类方面表现出色。然而，随着类别数量的增加，MLLMs 的性能也在下降，这主要是由于复杂性不断增加以及上下文窗口大小有限的限制。为了协同这两种方法的优势，并提高对具有广泛和细粒度词汇特征的数据集的少拍/零拍识别能力，本文介绍了 RAR，一种用于 MLLMs 的检索和排名增强方法。最初，我们在 CLIP 的基础上建立了一个多模式检索器，用于创建和存储不同类别的显式记忆，而不局限于直接的上下文窗口。在推理过程中，RAR 会从记忆中检索前 k 个相似结果，并使用 MLLMs 进行排序和最终预测。我们提出的方法不仅解决了细粒度识别的固有局限性，还保留了模型的综合知识库，从而显著提高了一系列视觉语言识别任务的准确率。值得注意的是，我们的方法在 5 个细粒度视觉识别基准、11 个少镜头图像识别数据集以及零镜头识别设置下的 2 个物体检测数据集上的性能都有显著提高。

29.Bridge the Modality and Capacity Gaps in Vision-Language Model Selection

标题:弥合视觉语言模型选择中的模式和能力差距

author:Chao Yi, De-Chuan Zhan, Han-Jia Ye

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13797v1

摘要：
视觉语言模型（VLM）通过将图像与文本类别名称配对，在零镜头图像分类方面表现出色。预训练 VLM 的种类不断增加，提高了为特定任务识别合适 VLM 的可能性。因此，一种很有前途的零拍图像分类策略是从 VLM 动物园中选择最合适的预训练 VLM，完全依靠目标数据集的文本数据，而无需访问数据集的图像。在本文中，我们分析了在这种仅使用语言的 VLM 选择中评估 VLM 能力的两个内在挑战：“模态差距”（Modality Gap）–VLM 在两种不同模态中的嵌入差异，使得文本成为图像的不可靠替代物；以及 “能力差距”（Capability Gap）–VLM 的总体排名与其在目标数据集上的排名之间的差异，阻碍了从模型的总体性能直接预测其特定数据集的性能。我们提出了利用 gAp 桥接的 VLM 选择（SWAB）来减轻这两个差距的负面影响。SWAB 首先采用最优传输，通过传输矩阵捕捉开源数据集与目标数据集之间的相关性。然后，它使用该矩阵将 VLM 的有用统计数据从开源数据集转移到目标数据集，以弥合这两个差距，并增强 VLM 的容量估计，从而进行 VLM 选择。各种 VLM 和图像分类数据集的实验验证了 SWAB 的有效性。

30.HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

标题:HyperLLaVA：多模态大型语言模型的动态视觉和语言专家调整

author:Wenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13447v1

摘要：
最近的研究进展表明，扩展多模态大语言模型（MLLM）可以有效提高下游多模态任务的性能。目前流行的多模态大语言模型范式，即 LLaVA，使用视觉语言映射器将视觉特征转换为类似文本的标记，从而使 LLM 通过视觉语言映射器开发出理解视觉信息的能力。LLMs 通过视觉指令调整来发展理解视觉信息的能力。尽管前景广阔，但在不同的下游多模态任务中，采用相同参数的静态调谐策略（the static tuning refers to the trained model with static parameters.有鉴于此，我们引入了 HyperLLaVA，它涉及投影仪和 LLM 参数的自适应调整，并分别与动态视觉专家和语言专家相结合。这些专家来自 HyperNetworks，通过视觉和语言引导产生自适应参数偏移，从而在两阶段训练中实现动态投影仪和 LLM 建模。我们的实验证明，我们的解决方案在现有的 MLLM 基准（包括 MME、MMBench、SEED-Bench 和 LLaVA-Bench）上大大超过了 LLaVA。~footnote{Our project is available on the link https://github.com/DCDmllm/HyperLLaVA}。

31.AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation

标题:AGFSync：利用人工智能生成的反馈优化文本到图像的生成过程

author:Jingkun An, Yinghao Zhu, Zongjian Li, Haoran Feng, Bohua Chen, Yemin Shi, Chengwei Pan

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13352v2

摘要：
文本到图像（T2I）扩散模型在图像生成方面取得了显著的成功。尽管取得了进展，但在及时跟踪能力、图像质量和缺乏高质量数据集等方面仍存在挑战，而这些对于完善这些模型至关重要。由于获取标注数据的成本很高，我们引入了 AGFSync，这是一个通过直接偏好优化（DPO）来增强 T2I 扩散模型的框架，是一种完全由人工智能驱动的方法。AGFSync 利用视觉语言模型（VLM）来评估图像质量的风格、连贯性和美感，并在人工智能驱动的循环中生成反馈数据。通过将 AGFSync 应用于 SD v1.4、v1.5 和 SDXL 等领先的 T2I 模型，我们在 TIFA 数据集上进行的大量实验表明，VQA 分数、美学评估和 HPSv2 基准性能都有显著提高，始终优于基础模型。AGFSync 精炼 T2I 扩散模型的方法为可扩展的配准技术铺平了道路。

32.SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

标题:SC-Tune：在大型视觉语言模型中释放自洽参照理解能力

author:Tongtian Yue, Jie Cheng, Longteng Guo, Xingyuan Dai, Zijia Zhao, Xingjian He, Gang Xiong, Yisheng Lv, Jing Liu

publish:Accepted by CVPR2024

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13263v1

摘要：
大型视觉语言模型（LVLMs）研究的最新趋势是越来越注重超越一般的图像理解，向更细微的对象级指代理解发展。在本文中，我们介绍并深入探讨了 LVLM 的自洽能力，这是一个关键方面，反映了模型既能为特定对象生成翔实的标题，又能随后利用这些标题在闭环过程中准确地重新识别对象的能力。这种能力极大地反映了精细视觉语言理解的精确性和可靠性。我们的研究结果表明，现有 LVLM 的自洽性水平没有达到预期，限制了其实际应用性和潜力。为了弥补这一不足，我们引入了一种名为 “自一致性调整”（SC-Tune）的新型微调范式。它的特点是循环描述器-定位器系统的协同学习。这种范式不仅数据效率高，而且还能在多个 LVLM 中实现通用性。通过广泛的实验，我们证明 SC-Tune 能显著提高一系列对象级视觉语言基准的性能，并在图像级视觉语言基准上保持竞争力或提高性能。我们的模型和代码都将在 https://github.com/ivattyue/SC-Tune 上公开。

点击全文阅读

郑重声明：

本站所有活动均为互联网所得，如有侵权请联系本站删除处理

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.20-2024.03.25

文章目录~

1.Elysium: Exploring Object-level Perception in Videos via MLLM

2.An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models

3.Open-Set Recognition in the Age of Vision-Language Models

4.CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification

5.Learning To Guide Human Decision Makers With Vision-Language Models

6.If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions

7.Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

8.Cross-domain Multi-modal Few-shot Object Detection via Rich Text

9.Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models

10.Enhancing Video Transformers for Action Understanding with VLM-aided Training

11.Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval

12.Centered Masking for Language-Image Pre-Training

13.VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification

14.A Multimodal Approach for Cross-Domain Image Retrieval

15.MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration

16.Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning

17.VidLA: Video-Language Alignment at Scale

18.Few-Shot Adversarial Prompt Learning on Vision-Language Models

19.Can 3D Vision-Language Models Truly Understand Natural Language?

20.MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

21.MyVLM: Personalizing VLMs for User-Specific Queries

22.PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model

23.LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding

24.Unsupervised Audio-Visual Segmentation with Modality Alignment

25.Empowering Segmentation Ability to Multi-modal Large Language Models

26.C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion

27.Multi-Modal Hallucination Control by Visual Information Grounding

28.RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

29.Bridge the Modality and Capacity Gaps in Vision-Language Model Selection

30.HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

31.AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation

32.SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

随便看看

我来说两句

本栏最新

本栏热门

全站热门