摘要:本文探究了视觉-语言预训练模型CLIP在小样本开集识别(Few-shot open-set recognition, FSOR)任务中的潜力。实验发现:1)基于CLIP图像编码特征的视觉原型分类器通常不如传统FSOR基线方法;2)基于CLIP语义编码特征的语义原型分类器虽然在闭集分类上显著优于传统基线,但在开集识别方面表现不佳。本文分析造成这些问题的主要原因可能是CLIP的训练数据与FSOR目标数据之间的分布差异及CLIP语义原型分类器为已知类别划分了过大的决策边界。对此,提出了一种简单有效的视觉语义增强的联合小样本开集分类器,其不仅充分利用CLIP语义原型分类器的闭集分类优势,还巧妙挖掘了传统FSOR预训练模型构建的视觉原型分类器的潜力,以更紧密的决策边界进一步提升开集识别的精准度。在四个基准数据集上的实验结果表明,该方法在ACC和AUROC指标上相比最优基线平均提升了2.9%和2.6%。