Os métodos atuais de segmentação semântica fraca supervisionada em nível de imagem baseados no Vision Transformer (ViT) dependem principalmente do mecanismo de autoatenção para extrair informações semânticas limitadas, não aproveitando plenamente as relações multimensionais das características, resultando em um reconhecimento mais grosseiro das áreas-alvo. Para isso, propõe-se uma rede de segmentação semântica fraca supervisionada impulsionada por aprendizado contrastivo espaço-temporal (Spatio-temporal Contrastive Learning, STCL), com o objetivo de explorar informações supervisionadas sob os ângulos temporal e espacial para melhorar a precisão da segmentação. Por meio do mecanismo de tokens do ViT, é introduzido um módulo de aprendizado contrastivo de características espaciais, combinando estratégias contrastivas de tokens em nível de patch e classe, explorando profundamente as relações semânticas implícitas no espaço da imagem; foi projetado um módulo de aprendizado contrastivo de contexto temporal, construindo um banco de memória que utiliza conhecimento prévio da segmentação de imagens históricas para orientar a tarefa atual de segmentação semântica, juntamente com uma estratégia de atualização de banco de memória e uma perda adaptativa de contraste de memória, aumentando ainda mais a capacidade do modelo de distinguir regiões detalhadas. Os resultados experimentais mostram que o índice médio de interseção sobre união (mIoU) atinge 72,7% e 43,6% nos conjuntos de dados PASCAL VOC e MS COCO, respectivamente, comprovando a superioridade do método proposto.
关键词
visão computacional;segmentação semântica;aprendizado fraco supervisionado;mapas de ativação de classe;transformador de visão;aprendizado contrastivo