您现在的位置是:首页 > 诗句大全

【AI视野·今日CV 计算机视觉论文速览 第303期】Wed, 6 Mar 2024

作者:欧阳逸时间:2024-04-16 17:35:42分类:诗句大全

简介  文章浏览阅读1.3k次,点赞23次,收藏28次。AI视野·今日CS.CV 计算机视觉论文速览Wed, 6 Mar 2024Totally 85 papers

点击全文阅读

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 6 Mar 2024
Totally 85 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation
Authors Chris Rockwell, Nilesh Kulkarni, Linyi Jin, Jeong Joon Park, Justin Johnson, David F. Fouhey
估计图像之间的相对相机姿势一直是计算机视觉中的核心问题。在大多数情况下,找到对应关系并求解基本矩阵的方法可以提供高精度。相反,直接使用神经网络预测姿势的方法对于有限的重叠更加稳健,并且可以推断绝对平移比例,但代价是精度降低。我们展示了如何结合这两种方法的优点,我们的方法产生既精确又稳健的结果,同时还准确地推断翻译尺度。我们模型的核心是一个 Transformer,它 1 学习在求解的姿态估计和学习的姿态估计之间进行平衡,2 ​​提供先验来指导求解器。

Self-supervised 3D Patient Modeling with Multi-modal Attentive Fusion
Authors Meng Zheng, Benjamin Planche, Xuan Gong, Fan Yang, Terrence Chen, Ziyan Wu
3D 患者身体建模对于智能医疗扫描和手术室自动患者定位的成功至关重要。现有的基于 CNN 的端到端患者建模解决方案通常需要定制的网络设计,需要大量相关训练数据,涵盖广泛的现实临床场景,例如,被床单覆盖的患者,这导致实际部署中的通用性不佳,并且需要昂贵的 3D 人体模型注释,即需要大量的手动工作,导致系统扩展性较差。为了解决这些问题,我们提出了一种通用的模块化 3D 患者建模方法,该方法由多模态关键点检测模块组成,并具有用于 2D 患者关节定位的注意融合,以学习互补的跨模态患者身体信息,从而提高关键点定位的鲁棒性和泛化性。各种成像(例如 CT、MRI 等)和临床场景(例如严重遮挡)以及自我监督的 3D 网格回归模块,该模块不需要昂贵的 3D 网格参数注释来进行训练,为临床部署带来直接的成本效益。我们通过对公共和临床数据进行广泛的患者定位实验来证明所提出方法的有效性。

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Authors Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas M ller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
扩散模型通过将数据的前向路径反转为噪声来从噪声中创建数据,并且已成为一种强大的生成建模技术,适用于图像和视频等高维感知数据。整流流是一种最新的生成模型公式,它将数据和噪声以直线连接。尽管其具有更好的理论特性和概念简单性,但它尚未被明确确立为标准实践。在这项工作中,我们改进了现有的噪声采样技术,通过将修正流模型偏向于感知相关的尺度来训练它们。通过大规模研究,我们证明了与高分辨率文本到图像合成的现有扩散公式相比,这种方法具有优越的性能。此外,我们提出了一种基于变压器的新颖架构,用于文本到图像的生成,该架构对两种模式使用单独的权重,并实现图像和文本标记之间的双向信息流,从而改善文本理解、排版和人类偏好评级。我们证明,该架构遵循可预测的缩放趋势,并将较低的验证损失与改进的文本到图像合成相关联(通过各种指标和人工评估来衡量)。

Triple-CFN: Restructuring Conceptual Spaces for Enhancing Abstract Reasoning process
Authors Ruizhuo Song, Beiming Yuan
抽象推理问题对人工智能算法提出了重大挑战,要求的认知能力超出了感知任务所需的能力。本研究引入了 Triple CFN 方法来解决 Bongard Logo 问题,通过隐式重组冲突实例的概念空间来实现显着的推理准确性。此外,事实证明,经过必要的修改,三重 CFN 范式对于 RPM 问题是有效的,并产生了有竞争力的结果。为了进一步提高 RPM 问题的性能,我们开发了 Meta Triple CFN 网络,该网络明确地构建问题空间,同时保持渐进模式的可解释性。 Meta Triple CFN 的成功归因于其对概念空间建模的范式,相当于规范化推理信息。基于这种思想,我们引入了Re空间层,增强了Meta Triple CFN和Triple CFN的性能。

Solving the bongard-logo problem by modeling a probabilistic model
Authors Ruizhuo Song, Beiming Yuan
抽象推理问题挑战人工智能算法的感知和认知能力,需要超越显式图像特征的更深入的模式辨别和归纳推理。本研究引入了 PMoC,这是一种针对 Bongard Logo 问题量身定制的概率模型,通过构建独立的概率模型来实现高推理精度。此外,我们还推出了 Pose Transformer,这是一种增强型 Transformer 编码器,专为复杂的抽象推理任务而设计,包括 Bongard Logo、RAVEN、I RAVEN 和 PGM。受胶囊网络姿势矩阵的启发,Pose Transformer 结合了位置信息学习,增强了其对图像数据处理中局部位置关系的关注。与PMoC集成时,进一步提高推理精度。我们的方法有效地解决了与抽象实体位置变化相关的推理困难,优于 OIG、D3 乘以 3 RAVEN 子集和 PGM 数据库上的先前模型。

PalmProbNet: A Probabilistic Approach to Understanding Palm Distributions in Ecuadorian Tropical Forest via Transfer Learning
Authors Kangning Cui, Zishan Shao, Gregory Larsen, Victor Pauca, Sarra Alqahtani, David Segurado, Jo o Pinheiro, Manqi Wang, David Lutz, Robert Plemmons, Miles Silman
棕榈在热带森林中发挥着巨大作用,是人类和野生动物的重要资源。热带生态系统的一个核心问题是了解棕榈的分布和丰度。然而,由于混合森林景观中茂密的植被、重叠的树冠和可变的照明条件,在地理空间图像中准确识别和定位棕榈树提出了重大挑战。为了解决这个问题,我们引入了 PalmProbNet,这是一种概率方法,利用迁移学习来分析高分辨率无人机衍生的正射马赛克图像,从而能够检测厄瓜多尔雨林茂密树冠内的棕榈树。这种方法代表了自动棕榈检测的重大进步,可以有效地确定混合热带雨林中棕榈的存在和位置。我们的过程首先从无人机图像生成正射马赛克图像,我们从中提取并标记两种不同尺寸的手掌和非手掌图像块。然后,这些补丁用于训练具有相同架构的模型,该架构由未改变的预训练 ResNet 18 和具有专门训练参数的多层感知器 MLP 组成。随后,PalmProbNet 在景观正射马赛克上采用滑动窗口技术,使用小和大窗口尺寸来生成概率热图。该热图有效地可视化了棕榈树的分布,展示了我们的方法在各种森林密度下的可扩展性和适应性。

Simplicity in Complexity
Authors Kevin Shen, Surabhi S Nath, Aenne Brielmann, Peter Dayan
视觉刺激的复杂性在许多认知现象中发挥着重要作用,包括注意力、参与度、记忆力、时间感知和审美评价。尽管复杂性很重要,但人们对其了解甚少,具有讽刺意味的是,以前的图像复杂性模型相当复杂。人们曾多次尝试寻找能够解释复杂性的手工特征,但这些特征通常是特定于数据集的,因此无法泛化。另一方面,最近的工作采用深度神经网络来预测复杂性,但这些模型仍然难以解释,并且不能指导对问题的理论理解。在这里,我们建议使用基于分段的图像表示来建模复杂性。我们使用最先进的分割模型 SAM 和 FC CLIP 来分别量化多粒度的分割数量以及图像中的类别数量。我们发现,复杂性可以通过一个简单的线性模型很好地解释,该模型具有跨自然场景和艺术图像的六个不同图像集的这两个特征。

Improved LiDAR Odometry and Mapping using Deep Semantic Segmentation and Novel Outliers Detection
Authors Mohamed Afifi, Mohamed ElHelw
感知是实现智能自主导航的关键要素。了解周围环境的语义和准确的车辆姿态估计是自动驾驶汽车的基本能力,包括自动驾驶汽车和执行复杂任务的移动机器人。自动驾驶汽车等快速移动平台对定位和地图算法提出了严峻的挑战。在这项工作中,我们提出了一种基于 LOAM 架构的快速移动平台实时 LiDAR 里程计和测绘的新颖框架。我们的框架利用深度学习模型生成的语义信息来改进 LiDAR 扫描之间的点对线和点对平面匹配,并构建环境的语义图,从而使用 LiDAR 数据进行更准确的运动估计。我们观察到,在匹配过程中包含语义信息会为该过程引入一种新型异常匹配,其中匹配发生在同一语义类的不同对象之间。为此,我们提出了一种新颖的算法,可以在匹配过程中显式识别并丢弃潜在的异常值。在我们的实验中,我们研究了改进匹配过程对 LiDAR 里程计针对高速运动的鲁棒性的影响。

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization
Authors Yuxin Guo, Shijie Ma, Yuhao Zhao, Hu Su, Wei Zou
视听源定位 AVSL 是根据给定的音频提示识别场景中特定发声对象的任务。在我们的工作中,我们专注于带有伪标签的半监督 AVSL。为了解决普通硬伪标签的问题,包括偏差积累、噪声敏感性和不稳定性,我们提出了一种名为 Cross Pseudo Labeling XPL 的新方法,其中两个模型通过交叉细化机制相互学习,以避免偏差积累。我们为 XPL 配备了两个有效的组件。首先,带有锐化的软伪标签和伪标签指数移动平均机制使模型能够实现逐步的自我改进并确保稳定的训练。其次,课程数据选择模块在训练过程中自适应地选择高质量的伪标签,以减轻潜在的偏差。

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding
Authors Chun Peng Chang, Shaoxiang Wang, Alain Pagani, Didier Stricker
3D 视觉基础涉及将自然语言描述与其在 3D 空间中的相应对象进行匹配。现有方法经常面临对象识别准确性的挑战,并且难以解释复杂的语言查询,特别是涉及多个锚点或依赖于视图的描述。作为回应,我们推出了 MiKASA 多键锚点场景感知变压器。我们新颖的端到端训练模型集成了基于自注意力的场景感知对象编码器和原始的多关键锚技术,提高了对象识别的准确性和对空间关系的理解。此外,MiKASA 提高了决策的可解释性,促进错误诊断。

CrackNex: a Few-shot Low-light Crack Segmentation Model Based on Retinex Theory for UAV Inspections
Authors Zhen Yao, Jiawei Xu, Shuhang Hou, Mooi Choo Chuah
对混凝土结构进行例行目视检查对于维护关键基础设施的安全性和完整性至关重要。这种目视检查有时会在弱光条件下进行,例如检查桥梁的健康状况。由于裂缝与其周围环境之间的对比度较差,因此在这种条件下进行裂缝分割具有挑战性。然而,大多数深度学习方法都是针对照明良好的裂纹图像而设计的,因此它们的性能在弱光场景中会急剧下降。此外,传统方法需要许多带注释的低光裂纹图像,这非常耗时。在本文中,我们通过提出 CrackNex 来解决这些挑战,这是一个利用基于 Retinex 理论的反射信息来帮助模型学习统一的光照不变表示的框架。此外,我们利用少量镜头分割来解决训练数据效率低下的问题。在CrackNex中,支撑原型和反射原型都是从支撑集中提取的。然后,设计一个原型融合模块来集成两个原型的功能。 CrackNex 在多个数据集上优于 SOTA 方法。此外,我们还提出了第一个用于弱光裂纹分割的基准数据集 LCSD。康乐及文化事务署 (LCSD) 由 102 张光线充足的裂缝图像和 41 张光线较暗的裂缝图像组成。

A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives
Authors Simone Alberto Peirone, Francesca Pistilli, Antonio Alliegro, Giuseppe Averta
人类对视频流的理解在几个瞬间自然是广泛的,我们能够理解正在发生的事情、对象的相关性和关系,并预测在不久的将来会发生什么,一切都在同一时间。我们相信,为了有效地将这种整体感知转移到智能机器中,通过学习关联概念和抽象来自不同任务的知识,并在学习新技能时协同利用它们,可以发挥重要作用。为了实现这一目标,我们寻求一种统一的视频理解方法,它将人类行为的共享时间建模与最小的开销相结合,以支持多个下游任务并在学习新技能时实现合作。然后,我们提出了 EgoPack,这是一种创建任务视角集合的解决方案,可以在下游任务中携带这些视角,并用作额外见解的潜在来源,就像机器人可以随身携带并在需要时使用的技能背包。

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models
Authors Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji
尽管取得了显着的进步,现有的多模态大语言模型 MLLM 在粒度视觉识别方面仍然较差。与之前的工作相反,我们从图像分辨率的角度研究了这个问题,并揭示了低分辨率和高分辨率视觉特征的结合可以有效地缓解这一缺点。基于这一观察,我们提出了一种新颖且有效的 MLLM 方法,称为分辨率适应混合 MRA。特别是,MRA针对不同分辨率的图像采用两种视觉路径,其中高分辨率视觉信息通过分辨率适配器MR Adapters的新颖组合嵌入到低分辨率路径中。这种设计还大大减少了 MLLM 的输入序列长度。为了验证 MRA,我们将其应用于最近的名为 LLaVA 的 MLLM,并将新模型称为 LLaVA HR。我们对 11 种视觉语言 VL 任务进行了广泛的实验,结果表明 LLaVA HR 在 8 种 VL 任务上优于现有的 MLLM,例如 TextVQA 上的 9.4。更重要的是,LLaVA HR 的训练和推理在 MRA 下仍然保持高效,例如,训练时间为 20 小时,推理速度是 LLaVA 1.5 的 3 倍。

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer
Authors Jianjian Cao, Peng Ye, Shengze Li, Chong Yu, Yansong Tang, Jiwen Lu, Tao Chen
视觉语言转换器 VLT 最近取得了巨大的成功,但同时也伴随着沉重的计算成本,其中一个主要原因可归因于大量的视觉和语言标记。现有的用于压缩VLT的令牌修剪研究主要遵循基于单一模态的方案,但却忽略了对齐不同模态对于指导令牌修剪过程的关键作用,导致一种模态的重要令牌在另一个模态分支中被错误地修剪。同时,现有的VLT剪枝工作也缺乏根据不同输入样本动态压缩每一层的灵活性。为此,我们提出了一种名为多模态对齐引导动态令牌修剪 MADTP 的新颖框架,用于加速各种 VLT。具体来说,我们首先引入一个设计良好的多模态对齐指导 MAG 模块,该模块可以对齐来自不同模态的相同语义概念的特征,以确保修剪后的标记对于所有模态来说都不那么重要。我们进一步设计了一种新颖的动态令牌修剪DTP模块,它可以根据不同的输入实例自适应地调整每层的令牌压缩比。对各种基准的大量实验表明,MADTP 显着降低了各种多模态模型的计算复杂性,同时保持了竞争性能。

Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception
Authors Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun Yan He, Jin Peng Lan, Bin Luo, Xuansong Xie
多模态大语言模型 MLLM 利用大语言模型作为各种视觉语言任务的认知框架。最近人们努力为 MLLM 配备视觉感知和接地能力。然而,在提供细粒度的像素级感知和将交互扩展到文本特定输入之外仍然存在差距。在这项工作中,我们提出了 bf AnyRef ,这是一种通用的 MLLM 模型,可以从多模态参考(例如文本、框、图像或音频)生成像素级对象感知和自然语言描述。这项创新使用户能够更加灵活地参与模型,超越文本和区域提示,而无需特定模式的设计。通过我们提出的重新聚焦机制,生成的接地输出被引导更好地聚焦于引用的对象,隐式地结合了额外的像素级监督。这个简单的修改利用了 LLM 推理过程中生成的注意力分数,消除了额外计算的需要,同时在接地掩模和引用表达式方面表现出性能增强。

ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities
Authors Ahmad Hassanpour, Yasamin Kowsari, Hatef Otroshi Shahreza, Bian Yang, Sebastien Marcel
本文探讨了大型语言模型 LLM(例如 ChatGPT)在生物识别任务中的应用。我们专门研究了 ChatGPT 在执行生物识别相关任务方面的能力,重点是人脸识别、性别检测和年龄估计。由于生物识别被视为敏感信息,ChatGPT 避免回答直接提示,因此我们制定了一个提示策略来绕过其保护并评估生物识别任务的能力。我们的研究表明,ChatGPT 可以相当准确地识别面部身份并区分两张面部图像。此外,实验结果表明在性别检测方面具有出色的性能,并且在年龄估计任务方面具有合理的准确性。

Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity
Authors Hagyeong Lee, Minkyu Kim, Jun Hyuk Kim, Seungeon Kim, Dokwan Oh, Jaeho Lee
文本引导图像压缩的最新进展显示出增强重建图像感知质量的巨大潜力。然而,这些方法往往会显着降低像素保真度,从而限制了它们的实用性。为了填补这一空白,我们开发了一种新的文本引导图像压缩算法,该算法可实现高感知和像素级保真度。特别是,我们提出了一种压缩框架,主要通过文本自适应编码和联合图像文本损失训练来利用文本信息。通过这样做,我们避免了基于以高生成多样性而闻名的文本引导生成模型的解码,并在全局层面上有效地利用文本的语义信息。各种数据集的实验结果表明,我们的方法可以通过人类或机器生成的字幕实现高像素级别和感知质量。

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image
Authors Xijia Tao, Shuai Zhong, Lei Li, Qi Liu, Lingpeng Kong
人们越来越关注大型语言模型法学硕士与人类价值观的一致性。然而,它们与视觉模块或视觉语言模型 VLM 集成的安全问题仍然相对未得到充分研究。在本文中,我们提出了一种针对 VLM 的新型越狱攻击,旨在当用户输入有害指令时绕过其安全屏障。假设我们的中毒图像、文本数据对包含在训练数据中的情况。通过用恶意越狱提示替换原始文本标题,我们的方法可以利用中毒图像进行越狱攻击。此外,我们分析了毒物比率和可训练参数的位置对攻击成功率的影响。为了进行评估,我们设计了两个指标来量化攻击的成功率和隐蔽性。与精选的有害指令列表一起,提供了衡量攻击效力的基准。

Gaze-Vector Estimation in the Dark with Temporally Encoded Event-driven Neural Networks
Authors Abeer Banerjee, Naval K. Mehta, Shyam S. Prasad, Himanshu, Sumeet Saurav, Sanjay Singh
在本文中,我们解决了注视矢量预测的复杂挑战,这是一项关键任务,其应用范围从人机交互到驾驶员监控系统。我们的创新方法专为极低光照条件的苛刻设置而设计,利用新颖的时间事件编码方案和专用的神经网络架构。时间编码方法将动态视觉传感器 DVS 事件与灰度引导帧无缝集成,生成连续编码的图像以输入到我们的神经网络中。这种独特的解决方案不仅捕获活跃年龄段参与者的不同注视反应,还引入了针对弱光条件定制的精选数据集。与我们的网络配对的编码时间帧在其预测中展示了令人印象深刻的空间定位和可靠的注视方向。

Enhancing Long-Term Person Re-Identification Using Global, Local Body Part, and Head Streams
Authors Duy Tran Thanh, Yeejin Lee, Byeongkeun Kang
这项工作解决了长期人员重新识别的任务。通常,行人重新识别假设人们不更换衣服,这限制了其在短期场景中的应用。为了克服这一限制,我们研究了长期人员重新识别,其中考虑了衣服更换和衣服一致的场景。在本文中,我们提出了一种新颖的框架,可以有效地学习和利用全球和本地信息。所提出的框架由三个流组成:全局流、局部身体部分流和头部流。全局流和头部流分别对来自整个图像和头部区域的裁剪图像的身份相关信息进行编码。两个流都使用对抗性擦除、最大池化和平均池化的组合来编码最明显、不太明显和平均的特征。本地身体部位流提取每个身体部位的身份相关信息,使其可以与另一图像中的相同身体部位进行比较。由于身体部位注释在重新识别数据集中不可用,因此使用聚类生成伪标签。然后利用这些标签来训练本地身体部位流中的身体部位分割头。所提出的框架是通过反向传播身份分类损失、基于对的损失和伪身体部位分割损失的加权和来训练的。为了证明所提出方法的有效性,我们在三个公开数据集 Celeb reID、PRCC 和 VC Clothes 上进行了实验。

Enhancing the Rate-Distortion-Perception Flexibility of Learned Image Codecs with Conditional Diffusion Decoders
Authors Daniele Mari, Simone Milani
学习的图像压缩编解码器最近取得了令人印象深刻的压缩性能,超越了最有效的图像编码架构。然而,大多数方法都经过训练以最小化速率和失真,这通常会导致低比特率下的视觉结果不令人满意,因为没有考虑感知指标。在本文中,我们表明,当用作解码器时,条件扩散模型可以在生成压缩任务中带来有希望的结果,并且,在给定压缩表示的情况下,它们允许在解码器端的失真和感知之间创建新的权衡点

Revisiting Confidence Estimation: Towards Reliable Failure Prediction
Authors Fei Zhu, Xu Yao Zhang, Zhen Cheng, Cheng Lin Liu
在许多风险敏感的应用中,可靠的置信估计是一项具有挑战性但又基本的要求。然而,现代深度神经网络常常对其不正确的预测过于自信,即来自已知类别的错误分类样本,以及来自未知类别的分布外 OOD 样本。近年来,发展了许多置信度校准和OOD检测方法。在本文中,我们发现了一个普遍存在但实际上被忽视的现象,即大多数置信估计方法对于检测错误分类错误都是有害的。我们研究了这个问题,并发现流行的校准和 OOD 检测方法通常会导致正确分类和错误分类示例之间的置信度分离较差,从而很难决定是否信任预测。最后,我们建议通过寻找平坦最小值来扩大置信差距,这在包括平衡、长尾和协变量移位分类场景在内的各种设置下产生最先进的故障预测性能。我们的研究不仅为可靠的置信度估计提供了强有力的基线,而且还充当了理解校准、OOD 检测和故障预测之间的桥梁。

Zero-LED: Zero-Reference Lighting Estimation Diffusion Model for Low-Light Image Enhancement
Authors Jinhong He, Minglong Xue, Zhipu Liu, Chengyun Song, Senming Zhong
基于扩散模型的弱光图像增强方法严重依赖配对训练数据,导致其广泛应用受到限制。同时,现有的无监督方法缺乏针对未知降解的有效桥接能力。为了解决这些限制,我们提出了一种用于低光图像增强的新型零参考照明估计扩散模型,称为零 LED。它利用扩散模型的稳定收敛能力来弥合弱光域和真实正常光域之间的差距,并通过零参考学习成功减轻对成对训练数据的依赖。具体来说,我们首先设计初始优化网络对输入图像进行预处理,并通过多个目标函数实现扩散模型和初始优化网络之间的双向约束。随后,迭代优化现实世界场景的退化因子,以实现有效的光增强。此外,我们探索了基于频域和语义引导的外观重建模块,该模块鼓励恢复图像在细粒度水平上的特征对齐并满足主观期望。最后,广泛的实验证明了我们的方法相对于其他最先进方法的优越性和更显着的泛化能力。

ActiveAD: Planning-Oriented Active Learning for End-to-End Autonomous Driving
Authors Han Lu, Xiaosong Jia, Yichen Xie, Wenlong Liao, Xiaokang Yang, Junchi Yan
自动驾驶 AD 的端到端可微学习最近已成为一个突出的范例。一个主要瓶颈在于其对高质量标记数据的贪婪需求,例如3D 边界框和语义分割的手动注释成本非常高。由于 AD 样本中的行为经常受到长尾分布的影响,这一问题变得更加突出。换句话说,收集的大部分数据可能是微不足道的,例如只是在笔直的道路上向前行驶,只有少数情况对安全至关重要。在本文中,我们探讨了一个实际重要但尚未探索的问题,即如何实现端到端 AD 的样本和标签效率。具体来说,我们设计了一种面向规划的主动学习方法,该方法根据所提出的规划路线的多样性和有用性标准逐步注释部分收集的原始数据。根据经验,我们表明我们的面向计划的方法可以大大优于一般的主动学习方法。值得注意的是,我们的方法仅使用 30 个 nuScenes 数据就实现了与最先进的端到端 AD 方法相当的性能。

Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation
Authors Weijie Li, Litong Gong, Yiran Zhu, Fanda Fan, Biao Wang, Tiezheng Ge, Bo Zheng
图像到视频 I2V 生成任务始终受到在开放域中保持高保真度的困扰。传统的图像动画技术主要关注特定领域,例如面部或人体姿势,这使得它们很难推广到开放领域。最近的几个基于扩散模型的 I2V 框架可以为开放域图像生成动态内容,但无法保持保真度。我们发现低保真度的两个主要因素是图像细节的丢失和去噪过程中的噪声预测偏差。为此,我们提出了一种可应用于主流视频扩散模型的有效方法。该方法通过补充更精确的图像信息和噪声校正来实现高保真度。具体来说,给定指定的图像,我们的方法首先向输入图像潜在添加噪声以保留更多细节,然后通过适当的校正对噪声潜在进行去噪以减轻噪声预测偏差。我们的方法是免费调优、即插即用。实验结果证明了我们的方法在提高生成视频的保真度方面的有效性。

Are Dense Labels Always Necessary for 3D Object Detection from Point Cloud?
Authors Chenqiang Gao, Chuandong Liu, Jun Shu, Fangcen Liu, Jiang Liu, Luyu Yang, Xinbo Gao, Deyu Meng
当前最先进的 SOTA 3D 对象检测方法通常需要大量 3D 边界框注释进行训练。然而,收集如此大规模的密集监督数据集的成本是众所周知的。为了减少繁琐的数据标注过程,我们提出了一种新颖的稀疏标注框架,其中我们只为每个场景标注一个 3D 对象。这种稀疏标注策略可以显着减轻繁重的标注负担,而不精确和不完整的稀疏监督可能会严重恶化检测性能。为了解决这个问题,我们开发了 SS3D 方法,该方法可以在统一的学习方案中改进 3D 检测器训练和自信的完全注释场景生成。使用稀疏注释作为种子,我们基于设计缺失的注释实例挖掘模块和可靠的背景挖掘模块,逐步生成置信的完全注释场景。与使用相同甚至更多注释成本的 SOTA 弱监督方法相比,我们提出的方法产生了有竞争力的结果。此外,与 SOTA 完全监督方法相比,我们在 KITTI 数据集上实现了同等甚至更好的性能,注释成本降低了约 5 倍,在 Waymo 数据集上的性能达到了 90 倍,注释成本降低了约 15 倍。额外的未标记训练场景可以进一步提高性能。

Towards Robust Federated Learning via Logits Calibration on Non-IID Data
Authors Yu Qiao, Apurba Adhikary, Chaoning Zhang, Choong Seon Hong
联邦学习 FL 是一种基于边缘网络中分布式设备协作模型训练的隐私保护分布式管理框架。然而,最近的研究表明,FL 很容易受到对抗性示例 AE 的影响,导致其性能显着下降。同时,边缘设备之间数据分布的非独立同分布非独立同分布挑战会进一步降低模型的性能。因此,AE 和非 IID 都对在边缘部署稳健的学习模型提出了挑战。在这项工作中,我们采用对抗性训练 AT 框架来提高 FL 模型针对对抗性示例 AE 攻击的鲁棒性,这可以称为联合对抗性训练 FAT 。此外,我们通过在 FAT 框架下实施简单而有效的 logits 校准策略来解决非 IID 挑战,这可以增强模型在遭受对抗性攻击时的鲁棒性。具体来说,我们采用直接策略通过在训练期间为小样本的类分配更高的权重来调整逻辑输出。这种方法有效地解决了训练数据中的类别不平衡问题,目标是减轻本地模型和全局模型之间的偏差。

DDF: A Novel Dual-Domain Image Fusion Strategy for Remote Sensing Image Semantic Segmentation with Unsupervised Domain Adaptation
Authors Lingyan Ran, Lushuang Wang, Tao Zhuo, Yinghui Xing
由于大量未标记数据,遥感图像的语义分割是一个具有挑战性和热点的问题。无监督域适应 UDA 已被证明在合并来自目标域的未分类信息方面具有优势。然而,在源域和目标域上独立微调 UDA 模型对结果的影响有限。本文提出了一种混合训练策略以及一种有效利用原始图像、变换图像和中间域信息的新型双域图像融合策略。此外,为了提高伪标签的精度,我们提出了伪标签区域特定权重策略。

Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos
Authors Kumaranage Ravindu Yasas Nagasinghe, Honglu Zhou, Malitha Gunawardhana, Martin Renqiang Min, Daniel Harari, Muhammad Haris Khan
在本文中,我们探讨了智能体构建行动步骤逻辑序列的能力,从而制定战略程序计划。该计划对于从最初的视觉观察到目标视觉结果至关重要,如现实生活教学视频中所示。现有的工作通过广泛利用数据集中可用的各种信息源(例如大量中间视觉观察、程序名称或自然语言逐步指令)来获得特征或监督信号,从而取得了部分成功。然而,由于步骤顺序中隐含的因果约束以及多个可行计划固有的可变性,这项任务仍然艰巨。为了解决以前的努力忽视的这些复杂问题,我们建议通过向代理注入程序知识来增强代理的能力。这些知识源自训练程序计划并构造为有向加权图,使代理能够更好地驾驭步骤排序的复杂性及其潜在变化。我们创造了我们的方法 KEPP,这是一种新颖的知识增强程序规划系统,它利用从训练数据中提取的概率程序知识图,有效地充当训练领域的综合教科书。

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
Authors Zheng Li, Xiang Li, Xinyi Fu, Xing Zhang, Weiqiang Wang, Jian Yang
即时学习已成为增强视觉语言模型 VLM(例如用于特定领域下游任务的 CLIP)的一项有价值的技术。现有的工作主要集中在设计各种学习形式的提示,忽略了提示作为从更大的教师模型中学习的有效蒸馏器的潜力。在本文中,我们介绍了一种无监督域提示蒸馏框架,其目的是通过使用未标记域图像的提示驱动模仿,将较大教师模型的知识转移到轻量级目标模型。具体来说,我们的框架由两个不同的阶段组成。在初始阶段,我们使用域少数镜头标签预训练大型 CLIP 教师模型。预训练后,我们利用 CLIP 独特的解耦模态特征,通过教师文本编码器将文本特征预计算并存储为类向量一次。在后续阶段,存储的类向量在教师和学生图像编码器之间共享,以计算预测逻辑。此外,我们通过 KL 散度对齐教师和学生模型的逻辑,鼓励学生图像编码器通过可学习的提示生成与教师相似的概率分布。所提出的即时蒸馏过程消除了对标记数据的依赖,使算法能够利用域内大量未标记的图像。最后,利用训练有素的学生图像编码器和预存储的文本特征类向量进行推理。据我们所知,我们是第一个 1 对 CLIP 执行无监督的特定领域提示驱动的知识蒸馏,2 建立一种实用的文本特征预存储机制,作为教师和学生之间的共享类向量。

HUNTER: Unsupervised Human-centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real Scenes
Authors Yichen Yao, Zimo Jiang, Yujing Sun, Zhencai Zhu, Xinge Zhu, Runnan Chen, Yuexin Ma
由于其对机器人技术的关键影响,以人为中心的 3D 场景理解最近引起了越来越多的关注。然而,以人为中心的现实生活场景极其多样和复杂,人类具有复杂的运动和互动。由于标记数据有限,监督方法很难推广到一般场景,阻碍了现实生活中的应用。模仿人类智能,我们通过将合成人类实例的知识转移到真实场景,提出了一种以人类为中心的场景的无监督 3D 检测方法。为了弥合合成模型和真实点云的不同数据表示和特征分布之间的差距,我们引入了新颖的模块,用于有效的实例到场景表示传输以及合成到真实特征对齐。

DeconfuseTrack:Dealing with Confusion for Multi-Object Tracking
Authors Cheng Huang, Shoudong Han, Mengyu He, Wenbo Zheng, Yuhao Wei
准确的数据关联对于减少多目标跟踪 MOT 中的混乱(例如 ID 切换和分配错误)至关重要。然而,现有的先进方法常常忽视轨迹之间的多样性以及运动和外观线索中存在的模糊性和冲突,导致在执行简单的全局数据关联时检测、轨迹和关联之间的混乱。为了解决这个问题,我们提出了一种简单、通用且高度可解释的数据关联方法,称为分解数据关联 DDA。 DDA 使用一系列非学习型模块将传统关联问题分解为多个子问题,并通过有针对性地利用新线索来选择性地解决每个子问题中的混乱问题。此外,我们引入了遮挡感知非最大抑制 ONMS 来保留更多遮挡检测,从而增加与轨迹关联的机会,并间接减少因漏检而造成的混乱。最后,基于DDA和ONMS,我们设计了一个强大的多目标跟踪器,名为DeconfuseTrack,专门致力于解决MOT中的混乱问题。在 MOT17 和 MOT20 数据集上进行的大量实验表明,我们提出的 DDA 和 ONMS 显着提高了几种流行跟踪器的性能。此外,DeconfuseTrack 在 MOT17 和 MOT20 测试集上实现了最先进的性能,在 HOTA、IDF1、AssA 等指标上显着优于基线跟踪器 ByteTrack。

Learning Group Activity Features Through Person Attribute Prediction
Authors Chihiro Nakatani, Hiroaki Kawashima, Norimichi Ukita
本文提出了群体活动特征 GAF 学习,其中多人活动的特征被学习为紧凑的潜在向量。与监督学习需要手动注释群体活动的先前工作不同,我们的方法通过人员属性预测来学习 GAF,而不需要群体活动注释。通过以端到端的方式学习整个网络,从而需要GAF来预测群体中的人的属性,将GAF训练为多人活动的特征。作为人物属性,我们建议使用人物的动作类和外观特征,因为前者由于其简单而易于注释,而后者不需要手动注释。此外,我们引入了位置引导属性预测来解开复杂的 GAF,从而正确提取每个目标人的特征。各种实验结果验证了我们的方法在两个公共数据集上定量和定性地优于 SOTA 方法。我们的 GAF 的可视化还表明,我们的方法学习了代表细粒度群体活动类别的 GAF。

Learning without Exact Guidance: Updating Large-scale High-resolution Land Cover Maps from Low-resolution Historical Labels
Authors Zhuohong Li, Wei He, Jiepan Li, Fangxiao Lu, Hongyan Zhang
大规模高分辨率高分辨率土地覆盖测绘是调查地球表面和解决人类面临的许多挑战的一项重要任务。然而,由于复杂的地面细节、各种地形以及大跨度地理区域缺乏准确的训练标签,这仍然是一项不平凡的任务。在本文中,我们提出了一种高效的弱监督框架 Paraformer,又名低到高网络 L2HNet V2,通过轻松访问低分辨率 LR 的历史土地覆盖数据来指导大规模 HR 土地覆盖制图。具体来说,现有的土地覆盖绘图方法揭示了 CNN 在保留局部地面细节方面的主导地位,但仍然存在各种地形的全局建模不足的问题。因此,我们在 Paraformer 中设计了一个并行 CNN Transformer 特征提取器,由一个无下采样的 CNN 分支和一个 Transformer 分支组成,以共同捕获局部和全局上下文信息。此外,面对训练数据的空间不匹配,采用伪标签辅助训练PLAT模块合理细化LR标签,用于HR图像的弱监督语义分割。

Bootstrapping Rare Object Detection in High-Resolution Satellite Imagery
Authors Akram Zaytar, Caleb Robinson, Gilles Q. Hacheme, Girmaw A. Tadesse, Rahul Dodhia, Juan M. Lavista Ferres, Lacey F. Hughey, Jared A. Stabach, Irene Amoke
稀有物体检测是应用地理空间机器学习中的一项基本任务,但由于大量的高分辨率卫星或航空图像以及很少或没有标记的阳性样本,通常具有挑战性。本文解决了假设没有标记数据并且感兴趣区域没有空间先验的情况下引导这种罕见的物体检测任务的问题。我们提出了基于离线和在线集群的新颖方法来对补丁进行采样,在将正样本暴露给人类注释者方面,这些方法比随机采样更有效。我们应用我们的方法来识别肯尼亚和坦桑尼亚塞伦盖蒂马拉地区的博马(bomas)或牧群动物的小型围栏。我们证明了检测效率的显着提高,实现了正采样率从 2 随机增加到 30 。

DomainVerse: A Benchmark Towards Real-World Distribution Shifts For Tuning-Free Adaptive Domain Generalization
Authors Feng Hou, Jin Yuan, Ying Yang, Yang Liu, Yang Zhang, Cheng Zhong, Zhongchao Shi, Jianping Fan, Yong Rui, Zhiqiang He
传统的跨域任务,包括域适应和域泛化,严重依赖于源域数据的训练模型。随着视觉语言模型 VLM(被视为自然源模型)的最新进展,跨域任务发生变化,直接将预训练的源模型适应配备先验领域知识的任意目标域,我们将此任务命名为自适应域泛化 ADG。然而,当前的跨域数据集存在许多局限性,例如域不切实际、域定义不明确以及无法细粒度域分解,这促使我们为 ADG 建立一个新颖的数据集 DomainVerse。受益于域转移的分层定义,DomainVerse 由来自 390 个细粒度现实域的约 50 万张图像组成。借助构建的 DomainVerse 和 VLM,我们提出了两种称为 Domain CLIP 和 Domain CLIP 的方法,用于调整自由自适应域泛化。

FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D Bird's-Eye View and Perspective View
Authors Jiawei Hou, Xiaoyan Li, Wenhao Guan, Gang Zhang, Di Feng, Yuheng Du, Xiangyang Xue, Jian Pu
在自动驾驶中,与传统感知任务(例如 3D 对象检测和鸟瞰 BEV 语义分割)相比,3D 占用预测可输出体素状态和语义标签,以便更全面地理解 3D 场景。最近的研究人员广泛探索了这项任务的各个方面,包括视图转换技术、地面实况标签生成和精心设计的网络设计,旨在实现卓越的性能。然而,对于自动驾驶车辆运行至关重要的推理速度却被忽略了。为此,提出了一种称为 FastOcc 的新方法。通过仔细分析输入图像分辨率、图像主干、视图变换和占用预测头四个部分的网络效应和延迟,发现占用预测头在加速模型同时保持其准确性方面具有相当大的潜力。为了改进这个组件,耗时的 3D 卷积网络被一种新颖的残差式架构取代,其中特征主要由轻量级 2D BEV 卷积网络消化,并通过集成从原始图像特征插值的 3D 体素特征进行补偿。

Enhancing Generalization in Medical Visual Question Answering Tasks via Gradient-Guided Model Perturbation
Authors Gang Liu, Hongyang Li, Zerui He, Shenjun Zhong
利用预先训练的视觉语言模型已成为提高下游视觉问答 VQA 应用程序性能的广泛采用的方法。然而,在医学 VQA 专业领域,可用数据的稀缺对实现可靠的模型泛化构成了重大障碍。人们提出了许多方法来增强模型泛化,从以数据为中心和以模型为中心的角度解决问题。数据增强技术通常用于丰富数据集,而各种正则化方法旨在防止模型过度拟合,特别是在有限数据样本上进行训练时。在本文中,我们介绍了一种在预训练和微调阶段将梯度引导参数扰动合并到多模态模型的视觉编码器中的方法,以提高下游医疗 VQA 任务的模型泛化能力。小扰动是通过与优化景观中移动平均梯度的方向对齐来自适应生成的,该方向与优化器的历史更新的方向相反。随后将其注入模型的视觉编码器中。

Deep Common Feature Mining for Efficient Video Semantic Segmentation
Authors Yaoyan Zheng, Hongyu Yang, Di Huang
视频语义分割的最新进展通过利用时间相关性取得了实质性进展。然而,持续存在的挑战,包括冗余计算和特征传播过程的可靠性,强调了进一步创新的必要性。作为回应,我们提出了深度通用特征挖掘 DCFM,这是一种战略性设计的新颖方法,旨在通过利用特征共享的概念来应对这些挑战。 DCFM 显式地将特征分解为两个互补的组件。从关键帧提取的公共表示为相邻非关键帧提供了必要的高级信息,从而允许直接重新利用而无需特征传播。同时,从每个视频帧派生的独立特征捕获快速变化的信息,提供对于分割至关重要的帧特定线索。为了实现这种分解,我们采用了针对稀疏注释数据量身定制的对称训练策略,使骨干网能够学习富含公共信息的稳健的高级表示。此外,我们还采用了自监督损失函数来增强类内特征相似性并增强时间一致性。

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters
Authors Weizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang
我们提出了一种利用微调多模态语言模型 MLM 来过滤图像文本数据的新颖框架。我们的方法通过集成 MLM 的最新进展,优于主要的过滤方法,例如 CLIPScore。我们设计了四个不同但互补的指标来全面衡量图像文本数据的质量。建立了一个新的管道来构建高质量的指令数据,用于微调 MLM 作为数据过滤器。与 CLIPScore 相比,我们的 MLM 过滤器可产生更精确、更全面的分数,可直接提高过滤数据的质量并提高预训练模型的性能。我们在流行的基础模型(即 CLIP 和 BLIP2)以及各种下游任务上实现了相对于 CLIPScore 的显着改进。我们的 MLM 过滤器可以推广到不同的模型和任务,并可以用作 CLIPScore 的替代品。

Few-shot Learner Parameterization by Diffusion Time-steps
Authors Zhongqi Yue, Pan Zhou, Richang Hong, Hanwang Zhang, Qianru Sun
即使使用大型多模态基础模型,如果没有适当的归纳偏差,很少有镜头学习仍然具有挑战性,几乎不可能保留细致入微的类属性,同时删除与类标签虚假相关的视觉突出属性。为此,我们发现了一个归纳偏差,即扩散模型 DM 的时间步可以隔离细微的类属性,即,当前向扩散在每个时间步向图像添加噪声时,细微的属性通常会在较早的时间丢失比视觉上突出的虚假属性更重要。在此基础上,我们提出了时间步长少的 TiF 学习器。我们为文本条件 DM 训练特定于类别的低等级适配器,以弥补丢失的属性,以便在给出提示的情况下可以根据噪声图像准确地重建图像。因此,在较小的时间步长内,适配器和提示本质上只是细微差别的类属性的参数化。对于测试图像,我们可以使用参数化来仅提取细微的类属性以进行分类。 TiF 学习器在各种细粒度和定制的少量镜头学习任务上显着优于 OpenCLIP 及其适配器。

HoloVIC: Large-scale Dataset and Benchmark for Multi-Sensor Holographic Intersection and Vehicle-Infrastructure Cooperative
Authors Cong Ma, Lei Qiao, Chengkai Zhu, Kai Liu, Zelong Kong, Qing Li, Xueqi Zhou, Yuheng Kan, Wei Wu
车联网V2X是近年来自动驾驶领域的热门话题。汽车基础设施合作VIC成为重要研究领域之一。由于盲点、遮挡等交通状况的复杂性,极大限制了单视角路侧传感系统的感知能力。为了进一步提高路侧感知的准确性,为车辆侧提供更好的信息,本文构建了各种布局的全息路口,构建了大规模多传感器全息车辆基础设施协作数据集,称为HoloVIC。我们的数据集包括 3 种不同类型的传感器:相机、激光雷达、鱼眼,并根据不同的交叉点采用 4 种传感器布局。每个路口均配备6个18个传感器,采集同步数据。当自动驾驶车辆经过这些路口时,会收集 VIC 数据。 HoloVIC 总共包含来自不同传感器的 100k 同步帧。此外,我们还基于相机、鱼眼和激光雷达注释了 3D 边界框。我们还将不同设备和连续帧中相同对象的 ID 按顺序关联起来。基于HoloVIC,我们制定了四项任务来促进相关研究的发展。

False Positive Sampling-based Data Augmentation for Enhanced 3D Object Detection Accuracy
Authors Jiyong Oh, Junhaeng Lee, Woongchan Byun, Minsang Kong, Sang Hun Lee
最近的研究重点是增强 3D 对象检测模型的性能。在各种方法中,地面实况采样已被提议作为一种增强技术,以解决有限的地面实况数据带来的挑战。然而,地面实况采样的一个固有问题是它会增加误报。因此,本研究旨在通过开发一种称为假阳性采样的新增强技术来克服地面实况采样的局限性并提高 3D 对象检测模型的性能。误报采样涉及使用在模型预测中被识别为误报的点云重新训练模型。我们提出了一种同时利用真实情况和误报采样的算法以及一种用于构建误报样本数据库的算法。此外,我们分析了由于误报采样而提高性能背后的原理,并提出了一种将课程学习的概念应用于包含误报和真实采样技术的采样策略的技术。我们的实验表明,利用误报采样的模型显示误报减少并表现出改进的对象检测性能。

BSDP: Brain-inspired Streaming Dual-level Perturbations for Online Open World Object Detection
Authors Yu Chen, Liyan Ma, Liping Jing, Jian Yu
人类可以很容易地区分已知和未知的类别,并且可以通过学习一次来识别未知的对象,而不是重复多次而不会忘记所学的对象。因此,我们的目标是让深度学习模型模拟人们的学习方式。我们将这种学习方式称为在线开放世界对象检测OLOWOD。现有的OWOD方法更注重未知类别的识别,而增量学习部分也非常重要。此外,一些神经科学研究表明,特定的噪音可以让大脑形成新的连接和神经通路,从而提高学习速度和效率。在本文中,我们将旧样本的双级信息作为对新样本的扰动,使模型善于学习新知识而不忘记旧知识。因此,我们提出了一种简单的即插即用方法,称为“大脑启发流双级扰动 BSDP”,来解决 OLOWOD 问题。具体来说, 1 我们首先计算之前类别的原型,并使用样本与原型之间的距离作为样本选择策略,选择旧样本进行重播 2 然后将原型作为新样本的流特征级别扰动,从而提高通过重新审视旧知识3来提高模型的可塑性,并利用旧类别样本的特征分布以流的形式生成对抗性数据作为数据级别的扰动,以增强模型对新类别的鲁棒性。

Interactive Continual Learning: Fast and Slow Thinking
Authors Biqing Qi, Xingquan Chen, Junqi Gao, Jianxing Liu, Ligang Wu, Bowen Zhou
高级生命形式由神经认知机制的协同相互作用维持,在其一生中不断获取和转移知识。相比之下,当代机器学习范式在模拟持续学习 CL 的各个方面表现出局限性。尽管如此,大型语言模型的出现为法学硕士提供了通过与这些模型交互来实现 CL 的有希望的途径。本文借鉴互补学习系统理论,提出了一种新颖的交互式持续学习 ICL 框架,该框架通过各种规模模型之间的协作交互来实现。具体来说,我们将 ViT 模型指定为 System1,将多模态 LLM 指定为 System2。为了使记忆模块能够从类信息中推断出任务并增强 Set2Set 检索,我们提出了类知识任务多头注意力 CKT MHA 。此外,为了通过增强几何表示来改进 System1 中的记忆检索,我们引入了基于 von Mises Fisher vMF 分布的 CL vMF 机制。同时,我们引入了von Mises Fisher离群点检测和交互vMF ODI策略来识别困难示例,从而增强System1和System2之间的协作以实现复杂的推理。

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use
Authors Imad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig
从内容审核到野生动物保护,需要模型识别细微差别或主观视觉概念的应用程序数量正在不断增加。传统上,为此类概念开发分类器需要大量的手动工作(以小时、天甚至月为单位)来识别和注释训练所需的数据。即使使用最近提出的敏捷建模技术,可以快速引导图像分类器,用户仍然需要花费 30 分钟或更长时间的单调、重复的数据标记来训练单个分类器。借鉴 Fiske 的认知守财奴理论,我们提出了一个新框架,通过用自然语言交互代替人类标记来减轻人工工作量,将定义概念所需的总工作量减少一个数量级,从标记 2,000 张图像减少到仅标记 100 张加上一些自然图像语言互动。我们的框架利用基础模型(大型语言模型和视觉语言模型)的最新进展,通过对话和自动标记训练数据点来开拓概念空间。最重要的是,我们的框架消除了对众包注释的需要。此外,我们的框架最终产生可部署在成本敏感场景中的轻量级分类模型。

A Unified Framework for Microscopy Defocus Deblur with Multi-Pyramid Transformer and Contrastive Learning
Authors Yuelin Zhang, Pengyu Zheng, Wanquan Yan, Chengyu Fang, Shing Shin Cheng
散焦模糊是显微镜成像中长期存在的问题,对细胞显微镜和显微镜手术的病理学解释和医疗干预造成损害。为了解决这个问题,提出了一个包括多金字塔变压器 MPT 和扩展频率对比正则化 EFCR 的统一框架,以解决显微镜去模糊较长注意力广度和特征缺陷方面的两个突出挑战。 MPT 在每个网络阶段采用显式金字塔结构,集成跨尺度窗口注意力 CSWA、尺度内通道注意力 ISCA 和特征增强前馈网络 FEFN,以捕获长距离跨尺度空间交互和全局通道上下文。 EFCR 通过探索来自不同频段的潜在去模糊信号来解决特征缺陷问题。它还支持去模糊知识迁移,以从额外数据中学习跨域信息,从而提高标记和未标记数据的去模糊性能。广泛的实验和下游任务验证表明该框架在多个数据集上实现了最先进的性能。

VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing
Authors Zhiyuan Chang, Mingyang Li, Junjie Wang, Cheng Li, Qing Wang
视觉蕴涵VE是一种由图像句子对组成的多模态推理任务,其中承诺由图像定义,假设由句子描述。目标是预测图像在语义上是否包含句子。 VE系统已广泛应用于许多下游任务中。变形测试是 AI 算法最常见的技术,但它对 VE 测试提出了重大挑战。他们要么只考虑单一模态的扰动,这会由于破坏图像文本对的关系而导致测试无效,要么只是对输入进行浅层扰动,很难检测到VE系统做出的决策错误。由于图像中的对象是推理的基本元素,我们提出了 VEglue,一种用于 VE 系统测试的对象对齐联合擦除方法。它首先对齐前提中的对象区域和假设中的对象描述,以识别链接和未链接的对象。然后,根据对齐信息,设计三个变形关系来共同擦除两种模态的对象。我们在涉及两个公共数据集的四个广泛使用的 VE 系统上评估 VEglue。结果显示,VEglue 平均可以检测到 11,609 个问题,比基线多 194 个 2,846 个。此外,VEglue 平均问题发现率 IFR 可达 52.5,明显优于基线 17.1 38.2。

What do we learn from inverting CLIP models?
Authors Hamid Kazemi, Atoosa Chegini, Jonas Geiping, Soheil Feizi, Tom Goldstein
我们采用基于反演的方法来检查 CLIP 模型。我们的研究表明,反转 CLIP 模型会生成与指定目标提示语义一致的图像。我们利用这些倒置图像来深入了解 CLIP 模型的各个方面,例如它们融合概念和包容性别偏见的能力。在模型反演过程中,我们特别观察到 NSFW Not Safe For Work 图像的实例。

Systemic Biases in Sign Language AI Research: A Deaf-Led Call to Reevaluate Research Agendas
Authors Aashaka Desai, Maartje De Meulder, Julie A. Hochgesang, Annemarie Kocab, Alex X. Lu
手语识别、生成和翻译人工智能方面的研究不断发展,人们呼吁此类技术的道德发展。虽然这些工作对于帮助个体研究人员做得更好至关重要,但明显缺乏对系统偏见的讨论或对影响该领域研究问题和方法的修辞分析的缺乏,特别是因为该领域仍然由听力非签名研究人员主导。因此,我们对手语人工智能领域的 101 篇最新论文进行了系统回顾。我们的分析发现了手语人工智能研究现状中的重大偏见,包括过度关注解决感知到的沟通障碍、缺乏代表性数据集的使用、使用缺乏语言基础的注释以及开发基于有缺陷的模型的方法。我们的立场是,该领域缺乏聋人利益相关者的有意义的投入,而是由对听力研究人员来说最方便或认为重要的决策来驱动。

Semantic Human Mesh Reconstruction with Textures
Authors Xiaoyu Zhan, Jianxin Yang, Yuanqi Li, Jie Guo, Yanwen Guo, Wenping Wang
近年来,3D 详细人体网格重建领域取得了重大进展。然而,由于结果不稳定、网格质量低以及缺乏 UV 展开和蒙皮权重,当前方法在工业应用中仍然面临挑战。在本文中,我们提出了 SHERT,这是一种新颖的管道,可以重建具有纹理和高精度细节的语义人体网格。 SHERT 在详细表面(例如网格和 SDF)以及相应的 SMPL X 模型之间应用基于语义和法线的采样,以获得部分采样的语义网格,然后通过我们专门设计的自监督完成和细化网络生成完整的语义网格。以完整的语义网格为基础,我们采用纹理扩散模型来创建由图像和文本驱动的人体纹理。我们重建的网格具有稳定的 UV 展开、高质量的三角形网格和一致的语义信息。给定的 SMPL X 模型提供了语义信息和形状先验,使得 SHERT 即使在输入不正确和不完整的情况下也能表现良好。语义信息还可以轻松地替换和动画不同的身体部位,例如面部、身体和手。

A dataset of over one thousand computed tomography scans of battery cells
Authors Amariah Condon, Bailey Buscarino, Eric Moch, William J. Sehnert, Owen Miles, Patrick K. Herring, Peter M. Attia
电池技术对于全球电气化工作越来越重要。然而,电池对微小的制造变化非常敏感,这可能会引发可靠性或安全问题。电池质量控制的一项重要技术是计算机断层扫描 CT 扫描,该技术广泛用于各种临床和工业应用的无损 3D 检查。然而,从历史上看,CT 扫描在大批量制造中的实用性一直受到其低吞吐量以及处理大文件大小的困难的限制。在这项工作中,我们提供了一个包含超过 1000 个已生产的商用电池 CT 扫描的数据集。该数据集涵盖各种化学物质锂离子和钠离子以及各种电池形状因素(圆柱形、袋形和棱形)。我们总共评估了七种不同的电池类型。通过该数据集可以观察制造的可变性和电池缺陷的存在。

Differentially Private Representation Learning via Image Captioning
Authors Tom Sander, Yaodong Yu, Maziar Sanjabi, Alain Durmus, Yi Ma, Kamalika Chaudhuri, Chuan Guo
差分隐私 DP 机器学习被认为是从敏感数据训练模型同时仍然保护隐私的黄金标准解决方案。然而,实现这一理想的一个主要障碍是其次优的隐私准确性权衡,这在 DP 表示学习中尤其明显。具体来说,事实证明,在适度的隐私预算下,大多数模型学习的表示并不比手工制作的特征好得多。在这项工作中,我们证明了可以通过图像字幕和扩展到互联网规模的多模态数据集来完成有效的 DP 表示学习。通过一系列的工程技巧,我们使用合理的计算量,成功地在 LAION 2B 的 233M 子集上从头开始训练 DP 图像字幕器 DP Cap,并获得了前所未有的高质量图像特征,可用于各种下游视觉和视觉语言任务。例如,在 varepsilon 8 的隐私预算下,在学习的 DP Cap 特征之上训练的线性分类器在 ImageNet 1K 上达到 65.8 的准确率,大大提高了之前的 SOTA 56.5 。

When do Convolutional Neural Networks Stop Learning?
Authors Sahan Ahmad, Gabriel Trahan, Aminul Islam
卷积神经网络 CNN 在图像分类、检测、分割和医学图像分析等计算机视觉任务中表现出了出色的性能。一般来说,使用任意数量的纪元来训练此类神经网络。在单个时期内,将整个训练数据除以批量大小后输入网络。在实践中,带有训练损失的验证误差用于估计神经网络的泛化能力,这表明网络的最佳学习能力。当前的做法是当训练损失减少并且训练和验证误差之间的差距(即泛化差距)增加时停止训练,以避免过度拟合。然而,这是一种基于试错的方法,提出了一个关键问题:是否有可能根据训练数据来估计神经网络何时停止学习这项研究工作引入了一个假设,该假设分析 CNN 变体所有层的数据变化以预测其接近最佳的学习能力。在训练阶段,我们使用我们的假设来预测 CNN 变体的接近最佳学习能力,而不使用任何验证数据。我们的假设可以作为即插即用的方式部署到任何现有的 CNN 变体,而无需向网络引入额外的可训练参数。我们在六种不同的 CNN 变体和三个不同的通用图像数据集 CIFAR10、CIFAR100 和 SVHN 上测试了我们的假设。基于这些 CNN 变体和数据集的结果表明,我们的假设在训练中平均节省了 58.49 的计算时间。我们进一步对十个医学图像数据集进行假设,并与 MedMNIST V2 基准进行比较。

Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review
Authors Iryna Hartsock, Ghulam Rasool
医学视觉语言模型 VLM 结合计算机视觉和自然语言处理来分析视觉和文本医学数据。我们的论文回顾了开发专门用于医疗保健的 VLM 的最新进展,重点关注为医疗报告生成和视觉问答而设计的模型。我们提供自然语言处理和计算机视觉的背景知识,解释如何将这两个领域的技术集成到 VLM 中以实现从多模式数据中学习。我们讨论的关键领域包括医学视觉语言数据集的探索、对最近值得注意的医学 VLM 中采用的架构和预训练策略的深入分析,以及对评估 VLM 在医学报告生成和视觉问答方面的性能的评估指标的全面讨论。我们还强调当前的挑战并提出未来的方向,包括提高临床有效性和解决患者隐私问题。

Optimizing Illuminant Estimation in Dual-Exposure HDR Imaging
Authors Mahmoud Afifi, Zhenhua Hu, Liang Liang
高动态范围 HDR 成像涉及捕获同一场景的一系列帧,每个帧具有不同的曝光设置,以拓宽光线的动态范围。这可以通过连拍捕捉或使用交错的 HDR 传感器来实现,这些传感器在相机图像信号处理器 ISP 中同时捕捉长曝光和短曝光。在相机 ISP 管道中,光源估计是关键的一步,旨在估计场景中全局光源的颜色。该估计用于相机 ISP 白平衡模块,以消除最终图像中不需要的色偏。尽管 HDR 管道中捕获了多个帧,但传统的光源估计方法通常仅依赖于场景的单个帧。在本文中,我们探索利用不同曝光时间捕获的帧中的信息。具体来说,我们引入了从双曝光图像中提取的一个简单特征来指导光源估计器,称为双曝光特征 DEF 。为了验证 DEF 的效率,我们使用了两个光源估计器,使用所提出的 DEF 1 多层感知器网络 MLP(称为基于曝光的 MLP EMLP),以及 2 卷积颜色恒常性 CCC 的修改版本来集成我们的 DEF,我们称之为欧洲商会。

Anatomically Constrained Tractography of the Fetal Brain
Authors Camilo Calixto, Camilo Jaimes, Matheus D. Soldatelli, Simon K. Warfield, Ali Gholipour, Davood Karimi
弥散加权磁共振成像 dMRI 越来越多地用于研究子宫内胎儿的大脑。 dMRI 实现的一项重要计算是流线纤维束成像,它具有独特的应用,例如大脑白质的纤维束特异性分析和结构连接评估。然而,由于胎儿 dMRI 数据质量低以及纤维束成像的挑战性,现有方法往往会产生高度不准确的结果。它们产生许多错误的流线,同时无法重建构成主要白质束的流线。在本文中,我们主张基于直接在 dMRI 空间中准确分割胎儿脑组织的解剖学约束纤维束成像。我们开发了一种深度学习方法来自动计算分割。独立测试数据实验表明,该方法可以准确分割胎儿脑组织,并大幅改善纤维束成像结果。它能够重建高度弯曲的束,例如视辐射。重要的是,我们的方法从适合 dMRI 数据的扩散张量推断出组织分割和流线型传播方向,使其适用于常规胎儿 dMRI 扫描。

NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function
Authors Abdullah Nazhat Abdullah, Tarkan Aydin
注意力机制是 Transformer 架构的主要组成部分,自推出以来,它在跨越多个领域和多个任务的深度学习领域取得了重大进展。注意力机制在计算机视觉中被用作视觉变压器ViT,其用途已扩展到视觉领域的许多任务,例如分类、分割、对象检测和图像生成。虽然这种机制非常具有表现力和能力,但它的缺点是计算量大,并且需要相当大的数据集才能有效优化。为了解决这些缺点,文献中提出了许多设计来减少计算负担并减轻数据大小要求。视觉领域中此类尝试的示例包括 MLP Mixer、Conv Mixer、Perciver IO 等等。本文介绍了一种新的计算块作为标准 ViT 块的替代品,通过用网络结构中的网络替换普通的注意力层来减少计算负担,该网络结构通过学习元素的动态系统增强了 MLP 混合器的静态方法。通过令牌混合过程进行门控功能。

Design2Code: How Far Are We From Automating Front-End Engineering?
Authors Chenglei Si, Yanzhe Zhang, Zhengyuan Yang, Ruibo Liu, Diyi Yang
近年来,生成式人工智能取得了快速发展,在多模式理解和代码生成方面实现了前所未有的能力。这可以实现前端开发的新范例,其中多模式法学硕士可以直接将视觉设计转换为代码实现。在这项工作中,我们将其形式化为 Design2Code 任务并进行全面的基准测试。具体来说,我们手动策划了 484 个不同的现实世界网页的基准作为测试用例,并开发了一组自动评估指标,以评估当前的多模式 LLM 生成直接呈现到给定参考网页的代码实现的能力(将屏幕截图作为输入) 。我们还通过全面的人工评估来补充自动指标。我们开发了一套多模式提示方法,并在 GPT 4V 和 Gemini Pro Vision 上展示了它们的有效性。我们进一步微调开源 Design2Code 18B 模型,成功匹配 Gemini Pro Vision 的性能。人工评估和自动指标均表明,与其他模型相比,GPT 4V 在此任务上表现最佳。此外,注释者认为 GPT 4V 生成的网页在视觉外观和内容方面可以在 49 例中取代原始参考网页,也许令人惊讶的是,在 64 例中 GPT 4V 生成的网页被认为比原始参考网页更好。

Recall-Oriented Continual Learning with Generative Adversarial Meta-Model
Authors Haneol Kang, Dong Wan Choi
稳定性可塑性困境是持续学习中的一个主要挑战,因为它涉及平衡保持先前任务表现和学习新任务的相互冲突的目标。在本文中,我们提出了面向回忆的持续学习框架来应对这一挑战。受人脑分离负责稳定性和可塑性机制的能力的启发,我们的框架由两层架构组成,其中推理网络有效地获取新知识,生成网络在必要时回忆过去的知识。特别是,为了最大限度地提高过去知识的稳定性,我们根据不同的表示来研究知识的复杂性,从而引入生成对抗性元模型 GAMM,它增量学习任务特定参数而不是任务的输入数据样本。通过我们的实验,我们表明我们的框架不仅可以在没有任何干扰的情况下有效地学习新知识,而且可以在任务感知和任务无关的学习场景中实现先前知识的高度稳定性。

Citizen Science and Machine Learning for Research and Nature Conservation: The Case of Eurasian Lynx, Free-ranging Rodents and Insects
Authors Kinga Skorupska, Rafa Stryjek, Izabela Wierzbowska, Piotr Bebas, Maciej Grzeszczuk, Piotr Gago, Jaros aw Kowalski, Maciej Krzywicki, Jagoda Lazarek, Wies aw Kope
世界各地的自然保护区和国家公园越来越多地使用技术来支持保护工作。濒临灭绝的物种,如欧亚猞猁猞猁,受到自动照片陷阱网络的监控。然而,这种方法会产生大量数据,需要准备、分析和解释。因此,从事该领域工作的研究人员越来越需要支持来处理这些传入信息。一个机会是寻求志愿公民科学家的支持,他们可以帮助标记数据,但是,保持他们的兴趣具有挑战性。另一种方法是使用卷积神经网络通过图像识别来自动化该过程。

Fast, Scale-Adaptive, and Uncertainty-Aware Downscaling of Earth System Model Fields with Generative Foundation Models
Authors Philipp Hess, Michael Aich, Baoxiang Pan, Niklas Boers
准确且高分辨率的地球系统模型 ESM 模拟对于评估人为气候变化的生态和社会经济影响至关重要,但计算成本太高。最近的机器学习方法在缩小 ESM 模拟方面显示出了有希望的结果,优于最先进的统计方法。然而,现有方法需要对每个 ESM 进行计算成本高昂的再训练,并且很难推断出训练期间未见过的气候。我们通过学习一致性模型 CM 来解决这些缺点,该模型可以有效、准确地缩小任意 ESM 模拟的规模,而无需以零样本方式进行重新训练。我们的基础模型方法产生的概率缩小场的分辨率仅受观测参考数据的限制。我们表明,CM 以一小部分计算成本优于最先进的扩散模型,同时保持了降尺度任务的高度可控性。

Rehabilitation Exercise Quality Assessment through Supervised Contrastive Learning with Hard and Soft Negatives
Authors Mark Karlov, Ali Abedi, Shehroz S. Khan
事实证明,基于运动的康复计划可以有效提高生活质量、降低死亡率和再住院率。人工智能驱动的虚拟康复允许患者在家中独立完成锻炼,利用人工智能算法分析锻炼数据,向患者提供反馈并更新临床医生的进展情况。这些程序通常规定了多种运动类型,这给康复运动评估数据集带来了明显的挑战,虽然总体训练样本丰富,但这些数据集对于每种运动类型的样本数量通常有限。这种差异阻碍了现有方法在每次练习中使用如此小的样本量来训练可推广模型的能力。为了解决这个问题,我们的论文引入了一种新颖的监督对比学习框架,该框架具有硬负样本和软负样本,该框架有效地利用整个数据集来训练适用于所有运动类型的单个模型。该模型采用时空图卷积网络 ST GCN 架构,证明了跨练习的通用性增强,整体复杂性降低。通过对三个公开可用的康复运动评估数据集(爱达荷大学物理康复运动数据 UI PRMD 、 IntelliRehabDS IRDS 以及用于远程监测身体康复的运动和临床分数的 Kinematic 评估 KIMORE )的广泛实验,我们的方法已证明超越了现有方法

Android in the Zoo: Chain-of-Action-Thought for GUI Agents
Authors Jiwen Zhang, Jihao Wu, Yihua Teng, Minghui Liao, Nuo Xu, Xiao Xiao, Zhongyu Wei, Duyu Tang
大语言模型LLM导致了智能手机自主GUI代理的激增,它们通过预测API的一系列动作来完成自然语言触发的任务。尽管该任务高度依赖于过去的动作和视觉观察,但现有的研究通常很少考虑中间屏幕截图和屏幕操作所执行的语义信息。为了解决这个问题,这项工作提出了被称为 CoAT 的行动思想链,它描述了先前的行动、当前的屏幕,更重要的是,行动思考应该执行哪些行动以及由所选行动导致的结果。我们证明,在现成的法学硕士的零样本设置中,与标准上下文建模相比,CoAT 显着提高了目标进度。为了进一步促进这方面的研究,我们构建了一个基准 Android In The Zoo AitZ ,其中包含 18,643 个屏幕动作对以及动作思维注释链。

Dirichlet-based Per-Sample Weighting by Transition Matrix for Noisy Label Learning
Authors HeeSun Bae, Seungjae Shin, Byeonghu Na, Il Chul Moon
对于使用噪声标签进行学习,转移矩阵明确地模拟了噪声标签分布和干净标签分布之间的关系,已被用来实现分类器或风险的统计一致性。以往的研究更多地关注于如何很好地估计这个转移矩阵,而不是如何利用它。我们提出良好的利用转移矩阵至关重要,并提出了一种基于重采样的新利用方法,即 RENT。具体来说,我们首先证明当前的利用率可能对实施有潜在的限制。作为重新加权的扩展,我们建议基于每个样本权重采样DWS框架的狄利克雷分布,并比较DWS框架下的重新加权和重采样。通过DWS的分析,我们提出了RENT,一种带有噪声转移矩阵的重采样方法。根据经验,RENT 在各种基准数据集上始终优于现有的转移矩阵利用方法(包括重新加权)。

UFO: Uncertainty-aware LiDAR-image Fusion for Off-road Semantic Terrain Map Estimation
Authors Ohn Kim, Junwon Seo, Seongyong Ahn, Chong Hui Kim
自主越野导航需要对环境进行准确的语义理解,通常将其转换为各种下游任务的鸟瞰图 BEV 表示。虽然基于学习的方法已经成功地从传感器数据直接生成本地语义地形地图,但它们在越野环境中的功效受到准确表示不确定地形特征的挑战的阻碍。本文提出了一种基于学习的融合方法,用于在 BEV 中生成密集地形分类图。通过在多个尺度上执行 LiDAR 图像融合,我们的方法提高了从 RGB 图像和单次扫描 LiDAR 扫描生成的语义图的准确性。利用不确定性感知伪标签进一步增强了网络在越野环境中可靠学习的能力,而无需精确的 3D 注释。

Towards Geometric-Photometric Joint Alignment for Facial Mesh Registration
Authors Xizhi Wang, Yaxiong Wang, Mengjian Li
本文提出了一种几何光度联合对准 GPJA 方法,通过结合几何和光度信息来精确对准人体表情。注册人体头部的常见做法通常涉及使用几何处理方法将地标与面部模板网格对齐,但常常忽略光度一致性。 GPJA 通过利用可微分渲染将顶点与目标表达式对齐,自动实现几何和光度外观的联合对齐,而不需要语义注释或对齐网格进行训练,从而克服了这一限制。它具有整体渲染对齐策略和多尺度正则化优化,以实现稳健和快速的收敛。该方法利用顶点位置的导数进行监督,并采用基于梯度的算法,保证几何演化过程中的平滑性并避免拓扑缺陷。实验结果表明,在各种表达下均能忠实对齐,超越了传统的基于 ICP 的方法和最先进的基于深度学习的方法。

Low-Res Leads the Way: Improving Generalization for Super-Resolution by Self-Supervised Learning
Authors Haoyu Chen, Wenbo Li, Jinjin Gu, Jingjing Ren, Haoze Sun, Xueyi Zou, Zhensong Zhang, Youliang Yan, Lei Zhu
对于图像超分辨率 SR,弥合合成数据集性能与现实世界退化场景之间的差距仍然是一个挑战。这项工作引入了一种新颖的 Low Res Leads the Way LWay 训练框架,将监督预训练与自监督学习相结合,以增强 SR 模型对现实世界图像的适应性。我们的方法利用低分辨率 LR 重建网络从 LR 图像中提取退化嵌入,将它们与超分辨率输出合并以进行 LR 重建。利用看不见的 LR 图像进行自我监督学习,引导模型将其建模空间适应目标域,从而促进 SR 模型的微调,而无需配对高分辨率 HR 图像。离散小波变换 DWT 的集成进一步细化了对高频细节的关注。广泛的评估表明,我们的方法显着提高了 SR 模型在未见过的现实世界数据集上的泛化和细节恢复能力,优于现有方法。

Pooling Image Datasets With Multiple Covariate Shift and Imbalance
Authors Sotirios Panagiotis Chytas, Vishnu Suresh Lokhande, Peiran Li, Vikas Singh
小样本量在许多学科中很常见,这需要在多个机构中汇集大致相似的数据集,以研究图像与疾病结果之间微弱但相关的关联。此类数据通常表现出协变量(即次要非成像数据)的偏移不平衡。控制此类有害变量在标准统计分析中很常见,但这些想法并不直接适用于过度参数化模型。因此,最近的工作表明,不变表示学习的策略如何提供了一个有意义的起点,但当前的方法仅限于一次仅考虑几个协变量的变化不平衡。在本文中,我们展示了如何从类别论的角度看待这个问题,提供了一种简单而有效的解决方案,完全避免了原本需要的复杂的多阶段训练流程。我们通过对真实数据集的大量实验展示了这种方法的有效性。

Enhancing Weakly Supervised 3D Medical Image Segmentation through Probabilistic-aware Learning
Authors Zhaoxin Fan, Runmin Jiang, Junhao Wu, Xin Huang, Tianyang Wang, Heng Huang, Min Xu
3D 医学图像分割是一项具有挑战性的任务,对疾病诊断和治疗计划具有重要意义。深度学习的最新进展显着增强了完全监督的医学图像分割。然而,这种方法严重依赖于劳动密集型且耗时的完全注释的地面实况标签,特别是对于 3D 体积。为了克服这一限制,我们提出了一种新颖的概率感知弱监督学习流程,专为 3D 医学成像而设计。我们的管道集成了三个创新组件:基于概率的伪标签生成技术,用于从稀疏注释合成密集分割掩模;概率多头自注意力网络,用于在概率变换网络中提取稳健的特征;以及概率通知分割损失函数,用于增强训练注释置信度。我们的方法展示了显着的进步,不仅可以与完全监督方法的性能相媲美,而且还超越了 CT 和 MRI 数据集中现有的弱监督方法,在某些器官的 Dice 分数上实现了高达 18.1 的改进。

Updating the Minimum Information about CLinical Artificial Intelligence (MI-CLAIM) checklist for generative modeling research
Authors Brenda Y. Miao, Irene Y. Chen, Christopher YK Williams, Jays n Davidson, Augusto Garcia Agundez, Harry Sun, Travis Zack, Atul J. Butte, Madhumita Sushil
生成模型的最新进展,包括大型语言模型 LLM、视觉语言模型 VLM 和扩散模型,加速了医学中自然语言和图像处理领域的发展,并标志着生物医学模型开发和部署方式的重大范式转变。虽然这些模型高度适应新任务,但扩展和评估它们的使用提出了先前框架中未解决的新挑战。特别是,这些模型能够在几乎没有专门的训练数据、零或很少的射击方法的情况下产生有用的输出,以及它们输出的开放性性质,需要在使用和评估这些模型时制定更新的指南。为了应对美国第 141103 号行政命令和几个新兴国家临床人工智能评估网络确定的临床人工智能工具开发标准和最佳实践方面的差距,我们开始通过建立有关临床人工智能的最低信息来正式制定其中一些指南建模 MI 索赔清单。 MI CLAIM 清单最初于 2020 年制定,提供了一组六个步骤,并提供了鼓励对医学人工智能进行透明、可重复研究所需的最低限度信息的指导。在这里,我们建议对原始清单进行修改,突出显示生成模型与传统临床研究人工智能模型相比在训练、评估、可解释性和可重复性方面的差异。

Coronary artery segmentation in non-contrast calcium scoring CT images using deep learning
Authors Mariusz Bujny, Katarzyna Jesionek, Jakub Nalepa, Karol Miszalski Jamka, Katarzyna Widawka ak, Sabina Wolny, Marcin Kostur
从冠状动脉疾病的医学评估角度来看,计算机断层扫描 CT 扫描中冠状动脉的精确定位至关重要。尽管存在多种方法可以在心脏造影增强 CT 扫描中提供高质量的冠状动脉分割,但侵入性较小的非造影 CT 在该领域的潜力仍未得到充分开发。由于此类精细的解剖结构在此类医学图像中几乎不可见,因此现有方法具有高召回率和低精度的特点,并且主要用于钙评分背景下的动脉粥样硬化斑块的过滤。在本文中,我们解决了这一研究空白,并介绍了一种用于在多供应商 ECG 门控非对比心脏 CT 图像中分割冠状动脉的深度学习算法,该算法受益于通过图像配准半自动生成 Ground Truth GT 的新颖框架。我们假设在这种情况下,所提出的 GT 生成过程比手动分割更有效,因为它允许快速生成大量不同的数据,从而产生良好的泛化模型。为了研究并彻底评估基于这种方法的分割质量,我们提出了一种手动网格到图像配准的新方法,用于创建我们的测试 GT。

Density-based Isometric Mapping
Authors Bardia Yousefi, M lina Khansari, Ryan Trask, Patrick Tallon, Carina Carino, Arman Afrasiyabi, Vikas Kundra, Lan Ma, Lei Ren, Keyvan Farahani, Michelle Hershman
等距映射方法采用最短路径算法来估计高维HD流形上的点之间的欧氏距离。这对于弱均匀高清数据来说可能还不够,因为它可能导致高估远邻点之间的距离,从而导致投影期间内在局部距离和外在全局距离之间的不一致。为了解决这个问题,我们通过添加受 Parzen Rosenblatt PR 窗口启发的新约束来修改最短路径算法,这有助于保持 Isomap 中构造的最短路径图的一致性。使用包含 72,236 例病例的多个成像数据集、70,000 个 MINST 数据、来自多个胸部 X 射线肺炎数据集的 1596 个数据集以及包含总共 640 名肺癌患者的三个 NSCLC CT PET 数据集来对 PR Isomap 进行基准测试和验证。从每种模式中提取了 431 个成像生物标志物。我们的结果表明,PR Isomap 将 HD 属性投影到低维 LD 空间中,同时保留信息,通过 MNIST 数据集可视化,指示保持局部和全局距离。 PR Isomap 对肺炎的比较准确度最高,为 80.9 STD 5.8,对三个 NSCLC 数据集的比较准确度为 78.5 STD 4.4、88.4 STD 1.4 和 61.4 STD 11.4,结果预测的置信区间为 95。同样,与其他降维方法相比,PR Isomap 的多变量 Cox 模型显示出更高的总体生存率(通过 c 统计量和对数似然检验进行测量)。

Encodings for Prediction-based Neural Architecture Search
Authors Yash Akhauri, Mohamed S. Abdelfattah
基于预测器的方法极大地增强了神经架构搜索 NAS 优化。这些预测器的功效在很大程度上受到神经网络架构编码方法的影响。虽然传统编码使用描述神经网络图结构的邻接矩阵,但新颖的编码采用了多种方法,从潜在表示的无监督预训练到零成本代理向量。在本文中,我们对结构性、学习性和基于评分三种主要类型的神经编码进行分类和研究。此外,我们扩展了这些编码并引入了 textit 统一编码,将 NAS 预测器扩展到多个搜索空间。我们的分析源自在 NAS 空间(例如 NASBench 101 NB101、NB201、NB301、Network Design Spaces NDS 和 TransNASBench 101)上对超过 150 万个神经网络架构进行的实验。在我们的研究基础上,我们提出了我们的预测器 textbf FLAN textbf Fl ow textbf注意textbf N AS。 FLAN 集成了关于预测器设计、迁移学习和 textit 统一编码的重要见解,可将训练 NAS 准确性预测器的成本降低一个数量级以上。

On Latency Predictors for Neural Architecture Search
Authors Yash Akhauri, Mohamed S. Abdelfattah
神经网络NN的高效部署需要精度和延迟的协同优化。例如,硬件感知神经架构搜索已用于自动查找满足特定硬件设备上的延迟约束的神经网络架构。这些搜索算法的核心是预测模型,旨在为候选神经网络架构提供硬件延迟估计。最近的研究表明,通过在一些具有大量样本的textit训练设备上进行预训练,然后将预测器转移到textit测试目标设备上,可以大大提高这些预测模型的样本效率。迁移学习和元学习方法已用于此目的,但通常表现出显着的性能变化。此外,现有延迟预测器的评估主要是在手工制作的训练测试设备集上完成的,这使得很难确定构成稳健且通用的延迟预测器的设计特征。为了解决这些问题,我们引入了一套全面的延迟预测任务,这些任务是通过硬件设备集的自动分区以原则性的方式获得的。然后,我们设计了一个通用延迟预测器,全面研究 1 预测器架构、2 NN 样本选择方法、3 硬件设备表示和 4 NN 操作编码方案。基于我们研究的结论,我们提出了一种端到端延迟预测器训练策略,该策略在 12 个困难的延迟预测任务中的 11 个上优于现有方法,将延迟预测平均提高了 22.5,在最困难的任务上高达 87.6。我们的 HW Aware NAS 专注于延迟预测,报告显示挂钟时间加速了 5.8 倍。

A Spatio-temporal Aligned SUNet Model for Low-light Video Enhancement
Authors Ruirui Lin, Nantheera Anantrasirichai, Alexandra Malyugina, David Bull
弱光条件引起的失真不仅在视觉上令人不愉快,而且还会降低计算机视觉任务的性能。事实证明,修复和增强是非常有益的。然而,针对弱光条件下采集的视频明确设计的增强方法数量有限。我们提出了一种时空对齐的 SUNet STA SUNet 模型,使用 Swin Transformer 作为骨干来捕获低光视频特征并利用它们的时空相关性。 STA SUNet 模型在全新的、完全注册的数据集 BVI 上进行训练,该数据集包含在不同光照条件下捕获的动态场景。在三个测试数据集上与各种其他模型进行进一步比较分析。该模型在所有数据集上表现出卓越的适应性,获得最高的 PSNR 和 SSIM 值。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

点击全文阅读

郑重声明:

本站所有活动均为互联网所得,如有侵权请联系本站删除处理

我来说两句