基于由粗到细推理策略的遥感影像开放词汇语义分割研究

选题依据及研究现状

开放词汇语义分割

开放词汇语义学习（Open-Vocabulary Learning, OVL）作为零样本学习的一种实现路径，旨在突破传统语义分割对固定类别集的依赖，实现在未见类别上的泛化分割能力。[1] 近年来，随着大规模视觉语言模型（如 CLIP [2]）的兴起，开放词汇研究取得显著进展。通过将图像与文本嵌入对齐，开放词汇学习方法能够利用自然语言描述定义类别接口，从而在图像分类、目标检测、语义分割等下游任务中实现零样本泛化能力。

开放词汇语义分割（Open-Vocabulary Semantic Segmentation, OVSS）作为 OVL 的重要应用场景，旨在通过视觉语言模型的语义对齐能力，实现对未见类别的像素级分割。

针对遥感场景遥感影像“少标注、快迭代”的现实需求，开放词汇语义分割技术具备很大应用潜力。通过利用大规模预训练的视觉语言模型，OVSS 方法能够在有限标注数据下实现对多样化地物类别的泛化分割能力，满足遥感影像在土地利用监测、灾害评估、环境保护等领域的实际需求。

CLIP 在密集预测任务中的局限性

CLIP 零样本分类任务中表现十分出色，目前，绝大部分开放词汇语义分割方法均围绕 CLIP 展开。但 CLIP 设计初衷并非面向像素级密集预测任务。在语义分割为代表的密集预测场景中，CLIP 存在以下局限性：

CLIP 关注图像级语义，局部特征中容易出现 离群激活（outliers） 现象 [3]，导致注意力图中出现错误激活。在前向传播过程中，离群特征被进一步放大，加剧 全局偏好（global bias）[4]，表现为掩码外扩与类别错分。相较于自然图像，由于同等分辨率的遥感影像中包含更多细粒度地物类别与复杂背景，全局偏好问题尤为明显。
遥感影像幅面巨大，而 CLIP 输入尺寸受限（常见 $224\,\times\,224$ 或 $336\,\times\,336$ ），工程上通常采用 切片（Tiling） 推理，这会造成切片间上下文缺失与语义关联丢失，导致同类目标在不同分片上的响应不一致与边界断裂。[5]

SAM 在开放词汇分割中的应用潜力

Segment Anything Model（SAM）[6] 作为一种提示驱动的通用图像分割模型，展示了强大的边界刻画能力和对多样化提示的适应性。 SAM 可通过点、框等多种提示形式引导分割过程，具备较强的几何边界细化能力。然而，在开放词汇分割场景中，SAM 仍面临以下挑战：

提示依赖性及背景误激活：SAM 在提示不足或提示偏移时容易出现背景误激活或目标分割不全（如仅产生实例级分割结果），输出稳定性与完整性难以保证。[7] 在遥感影像中，由于同类型地物形态多样且尺度差异显著，输出掩码质量的不稳定性尤为突出。
开放词汇适应性不足：SAM 主要通过大规模图像掩码数据集进行训练，缺乏对开放词汇语义的直接建模，限制了其在零样本分割任务中的表现。

技术路线

由粗到细的推理策略早在上个世纪 80 年代就已经产生，其核心思想是通过多层次、多阶段的处理流程，从全局到局部逐步细化信息表达与理解。在计算机视觉领域，这一策略被广泛应用于目标检测、图像分割等任务中，取得了显著成效。

CLIP 与 SAM 分别在开放词汇语义分割任务中展现出独特优势与局限性。结合两者的优势，设计一种由粗到细的推理架构，提升遥感影像开放词汇语义分割的性能。

具体而言，该架构先使用 CLIP 进行全局语义理解与初步定位，产生粗糙的分割掩码；随后，从粗糙掩码中挖掘稳定的分割提示，利用 SAM 对初步结果进行边界细化与局部调整，从而实现更准确的分割效果。

关键问题

基于相似性分析的特征净化方法

问题：CLS token 对局部语义不均衡污染的问题。

对策：

相似性评估：对 patch tokens 进行 DBSCAN 聚类分析，并基于相似性分析评估 CLS token 对各个聚类簇的影响程度。
离群激活抑制：根据相似性评估结果，在前向传播过程中抑制离群激活对局部语义的干扰。
全局偏好缓解：在模型输出 logits 阶段，根据相似性进一步抑制全局偏好现象。

基于关联矩阵的特征重建方法

问题：大幅遥感影像切片推理过程中，切片间语义关联信息丢失，同时也对 CLIP 的分类能力造成影响，导致同类目标在不同分片上的响应不一致与边界断裂。

对策：

关联矩阵构建：利用 SAM 对图像编码器对局部细节的精细刻画能力，构建图像级语义关联矩阵。
语义关联重建：基于关联矩阵提升切片间语义关联性，缓解由语义关联信息丢失带来的边界断裂等问题，进一步提升粗糙掩码质量。
空间特征恢复：使用基于 FeatUp 的空间特征恢复方法，提升特征图分辨率，改善掩码细节表现。

基于提示挖掘的掩码细化方法

问题：SAM 在提示不足或提示偏移时容易出现背景误激活或目标分割不全，输出稳定性与完整性难以保证。

对策：

点提示挖掘：基于高斯分布先验，从粗糙掩码中挖掘稳定的前景与背景点提示。
边界框提示挖掘：根据某一类别掩码的形态产生，设计弹性边界框生成算法，产生合适尺寸的边界框提示，进一步限定分割范围。
候选掩码筛选：针对 SAM 产生的多个候选掩码进行筛选。

工作计划

第一阶段（2024.09 ~ 2025.03）：完成相关文献调研与技术储备，熟悉 OVSS 领域的主流方法与评测基准；搭建基础实验环境，复现 CLIP 与 SAM 在遥感影像 OVSS 任务中的关键基线方法（如 CorrCLIP [8]、Trident [5]、SegEarth-OV [4]）。
第二阶段（2025.04 ~ 2025.09）：复现免训练 OVSS 与遥感 OVSS 的关键基线（如 Trident、SegEarth-OV），建立统一的评测脚本与结果对齐机制；同步完成第一阶段特征净化与离群激活抑制的原型实现。
第三阶段（2025.10 ~ 2026.03）：围绕两阶段推理架构完成核心模块的实现与验证：
- 设计特征净化模块，缓解离群激活及其造成的全局偏好问题；
- 基于 CLIP 特征的语义关联信息重建模块设计与实现，提升切片语义一致性，进一步提升粗糙掩码质量；
- 从粗糙掩码中挖掘稳定提示（点提示/边界框提示）的算法设计与实现，提升 SAM 分割的稳定性与准确性。
第四阶段（2026.04 ~ 2027.03）：撰写毕业论文与相关学术论文，整理实验数据与代码，完成项目总结与答辩准备工作。