
选题依据及研究现状
开放词汇语义分割
开放词汇语义学习(Open-Vocabulary Learning, OVL)作为零样本学习的一种实现路径,旨在突破传统语义分割对固定类别集的依赖,实现在未见类别上的泛化分割能力。[1] 近年来,随着大规模视觉语言模型(如 CLIP [2])的兴起,开放词汇研究取得显著进展。通过将图像与文本嵌入对齐,开放词汇学习方法能够利用自然语言描述定义类别接口,从而在图像分类、目标检测、语义分割等下游任务中实现零样本泛化能力。
开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVSS)作为 OVL 的重要应用场景,旨在通过视觉语言模型的语义对齐能力,实现对未见类别的像素级分割。
针对遥感场景遥感影像“少标注、快迭代”的现实需求,开放词汇语义分割技术具备很大应用潜力。通过利用大规模预训练的视觉语言模型,OVSS 方法能够在有限标注数据下实现对多样化地物类别的泛化分割能力,满足遥感影像在土地利用监测、灾害评估、环境保护等领域的实际需求。
CLIP 在密集预测任务中的局限性
CLIP 零样本分类任务中表现十分出色,目前,绝大部分开放词汇语义分割方法均围绕 CLIP 展开。但 CLIP 设计初衷并非面向像素级密集预测任务。在语义分割为代表的密集预测场景中,CLIP 存在以下局限性:
- CLIP 关注图像级语义,局部特征中容易出现 离群激活(outliers) 现象 [3],导致注意力图中出现错误激活。在前向传播过程中,离群特征被进一步放大,加剧 全局偏好(global bias)[4],表现为掩码外扩与类别错分。相较于自然图像,由于同等分辨率的遥感影像中包含更多细粒度地物类别与复杂背景,全局偏好问题尤为明显。
- 遥感影像幅面巨大,而 CLIP 输入尺寸受限(常见 $224\,\times\,224$ 或 $336\,\times\,336$ ),工程上通常采用 切片(Tiling) 推理,这会造成切片间上下文缺失与语义关联丢失,导致同类目标在不同分片上的响应不一致与边界断裂。[5]
SAM 在开放词汇分割中的应用潜力
Segment Anything Model(SAM)[6] 作为一种提示驱动的通用图像分割模型,展示了强大的边界刻画能力和对多样化提示的适应性。 SAM 可通过点、框等多种提示形式引导分割过程,具备较强的几何边界细化能力。然而,在开放词汇分割场景中,SAM 仍面临以下挑战:
- 提示依赖性及背景误激活:SAM 在提示不足或提示偏移时容易出现背景误激活或目标分割不全(如仅产生实例级分割结果),输出稳定性与完整性难以保证。[7] 在遥感影像中,由于同类型地物形态多样且尺度差异显著,输出掩码质量的不稳定性尤为突出。
- 开放词汇适应性不足:SAM 主要通过大规模图像掩码数据集进行训练,缺乏对开放词汇语义的直接建模,限制了其在零样本分割任务中的表现。
技术路线
由粗到细的推理策略早在上个世纪 80 年代就已经产生,其核心思想是通过多层次、多阶段的处理流程,从全局到局部逐步细化信息表达与理解。 在计算机视觉领域,这一策略被广泛应用于目标检测、图像分割等任务中,取得了显著成效。
CLIP 与 SAM 分别在开放词汇语义分割任务中展现出独特优势与局限性。结合两者的优势,设计一种由粗到细的推理架构,提升遥感影像开放词汇语义分割的性能。
具体而言,该架构先使用 CLIP 进行全局语义理解与初步定位,产生粗糙的分割掩码;随后,从粗糙掩码中挖掘稳定的分割提示,利用 SAM 对初步结果进行边界细化与局部调整,从而实现更准确的分割效果。
关键问题
基于相似性分析的特征净化方法
问题:CLS token 对局部语义不均衡污染的问题。
对策:
- 相似性评估:对 patch tokens 进行 DBSCAN 聚类分析,并基于相似性分析评估 CLS token 对各个聚类簇的影响程度。
- 离群激活抑制:根据相似性评估结果,在前向传播过程中抑制离群激活对局部语义的干扰。
- 全局偏好缓解:在模型输出 logits 阶段,根据相似性进一步抑制全局偏好现象。
基于关联矩阵的特征重建方法
问题:大幅遥感影像切片推理过程中,切片间语义关联信息丢失,同时也对 CLIP 的分类能力造成影响,导致同类目标在不同分片上的响应不一致与边界断裂。
对策:
- 关联矩阵构建:利用 SAM 对图像编码器对局部细节的精细刻画能力,构建图像级语义关联矩阵。
- 语义关联重建:基于关联矩阵提升切片间语义关联性,缓解由语义关联信息丢失带来的边界断裂等问题,进一步提升粗糙掩码质量。
- 空间特征恢复:使用基于 FeatUp 的空间特征恢复方法,提升特征图分辨率,改善掩码细节表现。
基于提示挖掘的掩码细化方法
问题:SAM 在提示不足或提示偏移时容易出现背景误激活或目标分割不全,输出稳定性与完整性难以保证。
对策:
- 点提示挖掘:基于高斯分布先验,从粗糙掩码中挖掘稳定的前景与背景点提示。
- 边界框提示挖掘:根据某一类别掩码的形态产生,设计弹性边界框生成算法,产生合适尺寸的边界框提示,进一步限定分割范围。
- 候选掩码筛选:针对 SAM 产生的多个候选掩码进行筛选。
工作计划
- 第一阶段(2024.09 ~ 2025.03):完成相关文献调研与技术储备,熟悉 OVSS 领域的主流方法与评测基准;搭建基础实验环境,复现 CLIP 与 SAM 在遥感影像 OVSS 任务中的关键基线方法(如 CorrCLIP [8]、Trident [5]、SegEarth-OV [4])。
- 第二阶段(2025.04 ~ 2025.09):复现免训练 OVSS 与遥感 OVSS 的关键基线(如 Trident、SegEarth-OV),建立统一的评测脚本与结果对齐机制;同步完成第一阶段特征净化与离群激活抑制的原型实现。
- 第三阶段(2025.10 ~ 2026.03):围绕两阶段推理架构完成核心模块的实现与验证:
- 设计特征净化模块,缓解离群激活及其造成的全局偏好问题;
- 基于 CLIP 特征的语义关联信息重建模块设计与实现,提升切片语义一致性,进一步提升粗糙掩码质量;
- 从粗糙掩码中挖掘稳定提示(点提示/边界框提示)的算法设计与实现,提升 SAM 分割的稳定性与准确性。
- 第四阶段(2026.04 ~ 2027.03):撰写毕业论文与相关学术论文,整理实验数据与代码,完成项目总结与答辩准备工作。