选题依据及研究现状

开放词汇语义分割

开放词汇语义学习(Open-Vocabulary Learning, OVL)作为零样本学习的一种实现路径,旨在突破传统语义分割对固定类别集的依赖,实现在未见类别上的泛化分割能力。[1] 近年来,随着大规模视觉语言模型(如 CLIP [2])的兴起,开放词汇研究取得显著进展。通过将图像与文本嵌入对齐,开放词汇学习方法能够利用自然语言描述定义类别接口,从而在图像分类、目标检测、语义分割等下游任务中实现零样本泛化能力。

开放词汇学习
开放词汇学习

开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVSS)作为 OVL 的重要应用场景,旨在通过视觉语言模型的语义对齐能力,实现对未见类别的像素级分割。

针对遥感场景遥感影像“少标注、快迭代”的现实需求,开放词汇语义分割技术具备很大应用潜力。通过利用大规模预训练的视觉语言模型,OVSS 方法能够在有限标注数据下实现对多样化地物类别的泛化分割能力,满足遥感影像在土地利用监测、灾害评估、环境保护等领域的实际需求。

CLIP 在密集预测任务中的局限性

CLIP 零样本分类任务中表现十分出色,目前,绝大部分开放词汇语义分割方法均围绕 CLIP 展开。但 CLIP 设计初衷并非面向像素级密集预测任务。在语义分割为代表的密集预测场景中,CLIP 存在以下局限性:

  • CLIP 关注图像级语义,局部特征中容易出现 离群激活(outliers) 现象 [3],导致注意力图中出现错误激活。在前向传播过程中,离群特征被进一步放大,加剧 全局偏好(global bias)[4],表现为掩码外扩与类别错分。相较于自然图像,由于同等分辨率的遥感影像中包含更多细粒度地物类别与复杂背景,全局偏好问题尤为明显。
  • 遥感影像幅面巨大,而 CLIP 输入尺寸受限(常见 $224\,\times\,224$ 或 $336\,\times\,336$ ),工程上通常采用 切片(Tiling) 推理,这会造成切片间上下文缺失与语义关联丢失,导致同类目标在不同分片上的响应不一致与边界断裂。[5]
离群激活问题
离群激活问题
分片一致性问题
分片一致性问题

SAM 在开放词汇分割中的应用潜力

Segment Anything Model(SAM)[6] 作为一种提示驱动的通用图像分割模型,展示了强大的边界刻画能力和对多样化提示的适应性。 SAM 可通过点、框等多种提示形式引导分割过程,具备较强的几何边界细化能力。然而,在开放词汇分割场景中,SAM 仍面临以下挑战:

  • 提示依赖性及背景误激活:SAM 在提示不足或提示偏移时容易出现背景误激活或目标分割不全(如仅产生实例级分割结果),输出稳定性与完整性难以保证。[7] 在遥感影像中,由于同类型地物形态多样且尺度差异显著,输出掩码质量的不稳定性尤为突出。
  • 开放词汇适应性不足:SAM 主要通过大规模图像掩码数据集进行训练,缺乏对开放词汇语义的直接建模,限制了其在零样本分割任务中的表现。
不稳定的分割提示
不稳定的分割提示

技术路线

由粗到细的推理策略早在上个世纪 80 年代就已经产生,其核心思想是通过多层次、多阶段的处理流程,从全局到局部逐步细化信息表达与理解。 在计算机视觉领域,这一策略被广泛应用于目标检测、图像分割等任务中,取得了显著成效。

CLIP 与 SAM 分别在开放词汇语义分割任务中展现出独特优势与局限性。结合两者的优势,设计一种由粗到细的推理架构,提升遥感影像开放词汇语义分割的性能。

具体而言,该架构先使用 CLIP 进行全局语义理解与初步定位,产生粗糙的分割掩码;随后,从粗糙掩码中挖掘稳定的分割提示,利用 SAM 对初步结果进行边界细化与局部调整,从而实现更准确的分割效果。

由粗到细推理架构示意图
由粗到细推理架构示意图

关键问题

基于相似性分析的特征净化方法

问题:CLS token 对局部语义不均衡污染的问题。

对策:

  • 相似性评估:对 patch tokens 进行 DBSCAN 聚类分析,并基于相似性分析评估 CLS token 对各个聚类簇的影响程度。
  • 离群激活抑制:根据相似性评估结果,在前向传播过程中抑制离群激活对局部语义的干扰。
  • 全局偏好缓解:在模型输出 logits 阶段,根据相似性进一步抑制全局偏好现象。
特征净化示意图
特征净化示意图

基于关联矩阵的特征重建方法

问题:大幅遥感影像切片推理过程中,切片间语义关联信息丢失,同时也对 CLIP 的分类能力造成影响,导致同类目标在不同分片上的响应不一致与边界断裂。

对策:

  • 关联矩阵构建:利用 SAM 对图像编码器对局部细节的精细刻画能力,构建图像级语义关联矩阵。
  • 语义关联重建:基于关联矩阵提升切片间语义关联性,缓解由语义关联信息丢失带来的边界断裂等问题,进一步提升粗糙掩码质量。
  • 空间特征恢复:使用基于 FeatUp 的空间特征恢复方法,提升特征图分辨率,改善掩码细节表现。
语义关联信息重建示意图
语义关联信息重建示意图

基于提示挖掘的掩码细化方法

问题:SAM 在提示不足或提示偏移时容易出现背景误激活或目标分割不全,输出稳定性与完整性难以保证。

对策:

  • 点提示挖掘:基于高斯分布先验,从粗糙掩码中挖掘稳定的前景与背景点提示。
  • 边界框提示挖掘:根据某一类别掩码的形态产生,设计弹性边界框生成算法,产生合适尺寸的边界框提示,进一步限定分割范围。
  • 候选掩码筛选:针对 SAM 产生的多个候选掩码进行筛选。
提示挖掘与掩码精炼示意图
提示挖掘与掩码精炼示意图

工作计划

  • 第一阶段(2024.09 ~ 2025.03):完成相关文献调研与技术储备,熟悉 OVSS 领域的主流方法与评测基准;搭建基础实验环境,复现 CLIP 与 SAM 在遥感影像 OVSS 任务中的关键基线方法(如 CorrCLIP [8]、Trident [5]、SegEarth-OV [4])。
  • 第二阶段(2025.04 ~ 2025.09):复现免训练 OVSS 与遥感 OVSS 的关键基线(如 Trident、SegEarth-OV),建立统一的评测脚本与结果对齐机制;同步完成第一阶段特征净化与离群激活抑制的原型实现。
  • 第三阶段(2025.10 ~ 2026.03):围绕两阶段推理架构完成核心模块的实现与验证:
    • 设计特征净化模块,缓解离群激活及其造成的全局偏好问题;
    • 基于 CLIP 特征的语义关联信息重建模块设计与实现,提升切片语义一致性,进一步提升粗糙掩码质量;
    • 从粗糙掩码中挖掘稳定提示(点提示/边界框提示)的算法设计与实现,提升 SAM 分割的稳定性与准确性。
  • 第四阶段(2026.04 ~ 2027.03):撰写毕业论文与相关学术论文,整理实验数据与代码,完成项目总结与答辩准备工作。

参考文献

[1]
J. Wu et al., “Towards open vocabulary learning: A survey,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 7, pp. 5092–5113, 2024.
[2]
A. Radford et al., “Learning Transferable Visual Models From Natural Language Supervision,” in International Conference on Machine Learning, PMLR, 2021, pp. 8748–8763.
[3]
B. Yang, C. Liu, B. Li, J. Jiao, and Q. Ye, “Self-Calibrated Cross Attention Network for Few-Shot Segmentation,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 654–663.
[4]
K. Li et al., “Segearth-ov: Towards training-free open-vocabulary segmentation for remote sensing images,” in Proceedings of the Computer Vision and Pattern Recognition Conference, 2025, pp. 10545–10556.
[5]
Y. Shi, M. Dong, and C. Xu, “Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation,” arXiv preprint arXiv:2411.09219, 2024.
[6]
A. Kirillov et al., “Segment Anything,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 4015–4026.
[7]
Q. Fan et al., “Stable Segment Anything Model,” in The Thirteenth International Conference on Learning Representations, 2025. [Online]. Available: https://openreview.net/forum?id=ooxj2Audlq
[8]
D. Zhang, F. Liu, and Q. Tang, “Corrclip: Reconstructing patch correlations in clip for open-vocabulary semantic segmentation,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2025, pp. 24677–24687.