Réseau de segmentation sémantique d'image faible supervision piloté par un apprentissage contrastif spatio-temporel

LIANG Zhen ,  

HU Yanzhu ,  

YANG Yang ,  

摘要

Les méthodes actuelles de segmentation sémantique faible supervision au niveau de l'image basées sur le Vision Transformer (ViT) reposent principalement sur le mécanisme d'attention auto-régressive pour extraire des informations sémantiques limitées, sans exploiter pleinement les relations multidimensionnelles des caractéristiques, ce qui entraîne une reconnaissance approximative des zones cibles. Pour y remédier, un réseau de segmentation sémantique d'image faible supervision piloté par un apprentissage contrastif spatio-temporel (Spatio-temporal Contrastive Learning, STCL) est proposé, visant à exploiter les informations supervisées sous les angles temporel et spatial afin d'améliorer la précision de segmentation. Grâce au mécanisme des tokens de ViT, un module d'apprentissage contrastif des caractéristiques spatiales est introduit, combinant des stratégies contrastives sur les tokens au niveau des patchs et des classes, pour explorer en profondeur les relations sémantiques cachées dans l'espace de l'image ; un module d'apprentissage contrastif du contexte temporel est conçu, utilisant une mémoire construite, exploitant les connaissances a priori issues de la segmentation d'images historiques pour guider la tâche actuelle de segmentation sémantique, ainsi qu'une stratégie de mise à jour de mémoire et une perte contrastive adaptative, améliorant encore la capacité du modèle à identifier les zones détaillées. Les résultats expérimentaux montrent que le taux moyen d'intersection sur union (mIoU) atteint respectivement 72,7% et 43,6% sur les ensembles de données PASCAL VOC et MS COCO, prouvant la supériorité de la méthode proposée.

关键词

vision par ordinateur;segmentation sémantique;apprentissage faible supervision;cartes d'activation de classe;vision transformer;apprentissage contrastif

阅读全文