【前沿热点顶会】NIPS 2024中分割有关的论文

XMask3D：开放词汇 3D 语义分割的跨模式 Masking 推理

开放词汇 3D 语义切分的现有方法主要集中在建立包含 3D、 2D 和文本形态的统一特征空间。然而，传统的技术，如全局特征对齐或视觉语言模型蒸馏，往往只强制实施近似对应，尤其是难以描绘出细粒度的分割边界。为了解决这一差距，我们通过一个跨模式的掩码推理框架 XMask3D，提出了一种更细致的 3D 特征和 2D 文本嵌入空间之间的掩码级别对齐方法。在我们的方法中，我们开发了一个基于预先训练的扩散模型的去噪 UNET 的掩模生成器，利用它对密集像素表示进行精确文本控制的能力，并增强生成的掩模的开放世界适应性。我们进一步将 3D 全局特征作为隐式条件集成到预先训练的 2D 去噪 UNET 中，从而能够生成具有额外 3D 几何感知的分割掩模。随后，使用所生成的 2D 掩码来将掩模级 3D 表示与视觉语言特征空间对准，从而增强 3D 几何嵌入的开放词汇能力。最后，我们融合了互补的2D 和 3D 掩码特征，从而在 3D 开放词汇语义切分的多个基准测试中产生了具有竞争力的性能。

将深度度量学习与 Correset 集成在 3D 分割中进行主动学习

深度学习在机器学习方面取得了显著的进步，但它往往需要大量的注释数据。像3D 语义分割这样的任务会带来很大的标注负担，特别是在医学等领域，专家标注会推高成本。主动学习(AL)在减轻三维医学分割中的标注负担方面具有很大的潜力。然而，现有的大多数 AL 方法并不是针对医学领域量身定做的。虽然已经探索了弱监督方法来减少标注负担，但尽管 AL 与弱监督的融合具有显著降低标注成本的潜力，但仍未被探索。此外，基于切片的 AL 用于 3D 分割的研究很少，与传统的基于体积的 AL 相比，基于切片的 AL 也可以显著降低成本。提出了一种新的基于CoReset 的度量学习方法，用于三维医学分割中基于切片的主动学习。通过将对比学习与医学成像中固有的数据分组相结合，我们得到了一种强调样本之间相关差异
的度量，用于训练 3D 医学分割模型。我们在四个数据集(医疗和非医疗)上使用弱注释和完整注释执行全面评估。我们的结果表明，我们的方法在弱标注和全标注上都超过了现有的主动学习技术，并且在低标注预算下获得了更好的性能，这在医学成像中是至关重要的。这个项目的源代码可以在补充材料中找到。

RG-SAN：用于端到端 3D 指代表达分割的规则引导空间感知网络

3D 指代表达式分割(3D-RES)旨在通过关联指代表达式和点云来分割 3D 对象。然而，由于对实例的空间信息不够重视，传统的方法经常会遇到过度分割或误分割等问题。本文提出了一种仅利用目标实例的空间信息进行监督的规则引导的空间感知网络(RG-SAN)。这种方法使网络能够准确地刻画文本中描述的所有实体之间的空间关系，从而增强了推理能力。 RG-SAN 由文本驱动的本地化模块(TLM)和规则引导的弱监督(RWS)策略组成。 TLM 最初定位所有提到的实例，并迭代地细化它们的位置信息。 RWS 策略承认只有目标对象具有受监督的位置信息，使用依赖关系树规则来精确指导核心实例的定位。对 ScanRefer 基准的广泛测试表明， RG-SAN
不仅建立了新的性能基准， MIU 值提高了 5.1 个点，而且在处理具有空间歧义的描述时，鲁棒性也有了显著的提高。

CAT：用于多器官和肿瘤分割的协调解剖-文本预算

医学成像领域中现有的可提示分割方法主要考虑文本或视觉提示来分割相关对象，但在处理诸如肿瘤等可能在形状、大小和外观上变化很大的医学图像中的异常时，它们往往达不到要求。考虑到医学场景的复杂性和文本或视觉提示的局限性，我们提出了一种新颖的双提示模式，该模式利用视觉提示和文本提示的互补优势来分割不同的器官和肿瘤。具体来说，我们引入了一种创新的模型CAT，该模型从医学领域知识丰富的自然提示中提取来自 3D 裁剪图像的自然提示。该模型采用了通用的基于查询的设计，其中提示查询便于用于掩码预测的分割查询。为了在一个统一的框架内协同两种类型的提示，我们实现了一个ShareRefiner，它细化了分段和提示查询，同时分离了这两种类型的提示。在一个由 10 个公共 CT 数据集组成的联合体上进行训练的CAT在多个分割任务中表现出了卓越的性能。对专门的内部数据集的进一步验证揭示了跨多个癌症阶段分割肿瘤的非凡能力。这种方法证实，协调多模式提示是解决医疗领域复杂场景的一种有前途的途径。

使用融合块和时空师生学习进行恶劣天气下的端到端视频语义分割

恶劣的天气条件会显著降低视频帧的质量，导致现有的视频语义分割方法产生错误的预测。在这项工作中，我们针对不利的天气条件，引入了一种端到端域适应策略，该策略利用了融合块、时空师生学习和时间天气退化增强方法。融合块在特征级别上集成了来自相邻帧的时间信息，端到端训练，不需要预先训练的光流，将我们的方法与现有方法区分开来。我们的师生方法涉及两位教师：一位专注于探索相邻帧的时间信息，另一位则利用当前帧的空间信息。最后，我们将时间天气退化增强应用于连续的帧，以更准确地表示不利天气退化。在从 Viper 和 Synthia 到 MVSS 的适配上，我们的方法分别获得了 25.4 和 33.0 Mou 的性能，比现有的最先进的方法分别提高了 4.3 和 5.8Mou。

一种令人惊讶的简单广义少镜头语义分割方法

广义少镜头语义分割(GFSS)的目标是通过训练几个标注样本和学习基类知识的基类模型来识别新类对象。与经典的少镜头语义分割不同， GFSS 的目标是将像素分为基类和新类，这意味着 GFSS 是一种更实用的设置。为此，现有的方法依赖于几种技术，如精心定制的模型，各种损失函数的组合，以及转导学习。然而，我们发现一种简单的规则和标准的监督学习大大提高了性能。在本文中，我们发现了一种简单的规则和标准的监督学习，从而提高了算法的性能我们提出了一种简单而有效的方法来处理 GFSS，它没有使用已有方法中提到的技术。理论上，我们的方法很
好地保持了基类模型在大多数基类上的分割性能。通过数值实验，我们证明了所提方法的有效性。特别是，我们的方法在单镜头场景下，在PASCAL- $5^I$ 、PASCAL- $10^I$ 、 PASCAL- $10^I$ 和 COCO- $20^I$ 上分别提高了 6.1%、 4.7%和1.0%。

AdaPKC：具有自适应峰值接收场的 PeakConv，用于雷达语义分割

基于深度学习的雷达检测技术在自动驾驶、无人机监控、海洋监测等领域受到越来越多的关注。在最近的努力中， PeakConv(PKC)提供了一种既能保留雷达信号的峰值响应特性又能发挥深卷积特性的解决方案，从而提高了雷达语义分割的效果。然而，由于采用了预先设定的固定峰值接受场采样规则， PKC 在处理目标频域响应展宽不一致、噪声/杂波分布的非均匀时变特性等问题上仍存在局限性，为此，本文提出了自适应峰值接受场的思想，并基于此思想将 PKC 升级为 AdaPKC。此外，还提出了一种新的微调技术来进一步提高基于 AdaPKC 的 RSS 网络的性能。通过使用各种实际测量雷达数据(包括公开提供的低成本自动驾驶毫米波雷达数据集和
自行收集的 Ku 波段监视雷达数据集)进行实验验证，我们发现基于AdaPKC 的模型在 RSS 任务中的性能优于其他 SOTA 方法。

迈向真实超图像分割：利用周围环境培养通用分割模型

现有的超图像分割方法面临着两大挑战，一是泛化问题(即缺乏标准分割模型的稳定性和通用性，因为它们是针对特定数据集定制的)；二是体系结构问题(即它们与真实的超图像场景不兼容，因为它们折衷于图像大小和计算资源)。 SGNet 利用每个图像块周围较大的区域来细化局部块的一般分割结果，具体地，我们提出了一个周围上下文整合模块来吸收周围的上下文信息并提取对局部块有利的特定特征。在5 个数据集上的大量实验表明， SGNet 在各种通用分割模型上取得了与之相当的性能和一致的改进，大大超过了传统的超图像分割方法。