Los métodos existentes de segmentación semántica débilmente supervisada a nivel de imagen basados en Vision Transformer (ViT) dependen principalmente del mecanismo de autoatención para extraer información semántica limitada, sin aprovechar adecuadamente las relaciones multidimensionales de las características, lo que provoca un reconocimiento más burdo de las áreas objetivo. Para ello, se propone una red de segmentación semántica débilmente supervisada impulsada por aprendizaje contrastivo espaciotemporal (Spatio-temporal Contrastive Learning, STCL), que tiene como objetivo extraer información supervisada desde las perspectivas temporal y espacial para mejorar la precisión de la segmentación. Mediante el mecanismo de tokens de ViT, se introduce un módulo de aprendizaje contrastivo de características espaciales que combina estrategias de contraste a nivel de token de parche y de clase, explorando en profundidad las relaciones semánticas implícitas en el espacio de la imagen; se diseñó un módulo de aprendizaje contrastivo del contexto temporal que, mediante la construcción de una memoria, utiliza el conocimiento previo de segmentaciones de imágenes históricas para guiar la tarea actual de segmentación semántica, además de establecer una estrategia de actualización de memoria y una pérdida de contraste adaptativa que mejoran la capacidad del modelo para distinguir detalles. Los resultados experimentales muestran que el índice promedio de intersección sobre unión (mIoU) alcanza el 72,7% y el 43,6% en los conjuntos de datos PASCAL VOC y MS COCO, respectivamente, demostrando la superioridad del método propuesto.
关键词
visión por computadora;segmentación semántica;aprendizaje débilmente supervisado;mapas de activación de clases;transformador visual;aprendizaje contrastivo