Существующие методы слабоконтролируемой семантической сегментации изображений, основанные на визуальном трансформере (Vision Transformer, ViT), в основном полагаются на механизм самовнимания для извлечения ограниченной семантической информации, что приводит к недостаточному использованию многомерных связей признаков и, как следствие, к грубому распознаванию целевых областей. В связи с этим предложена слабоконтролируемая сеть семантической сегментации изображений, управляемая пространственно-временным контрастным обучением (Spatio-temporal Contrastive Learning, STCL), предназначенная для извлечения супервизорной информации с точек зрения времени и пространства с целью повышения точности сегментации. Через механизм токенов ViT введен модуль пространственного контрастного обучения признаков, который в сочетании с контрастными стратегиями токенов на уровне патчей и классов глубоко исследует скрытые семантические взаимосвязи в пространстве изображения; разработан модуль контрастного обучения временного контекста, который посредством построения памяти использует априорные знания из исторической сегментации изображений для руководства текущей задачей семантической сегментации, а также введена стратегия обновления памяти и адаптивная контрастная потеря памяти, что дополнительно повышает способность модели различать тонкие детали. Экспериментальные результаты показывают, что средний коэффициент пересечения и объединения (mIoU) достигает 72,7% и 43,6% на наборах данных PASCAL VOC и MS COCO соответственно, подтверждая превосходство предложенного метода.
关键词
компьютерное зрение;семантическая сегментация;слабое обучение;карты активации классов;визуальный трансформер;контрастное обучение