Schwachüberwachtes Bild-semantisches Segmentierungsnetzwerk, angetrieben durch spatio-temporales kontrastives Lernen

LIANG Zhen ,  

HU Yanzhu ,  

YANG Yang ,  

摘要

Die derzeitigen bildebenen schwachüberwachten Methoden zur semantischen Segmentierung, die auf Vision Transformer (ViT) basieren, beruhen hauptsächlich auf dem Selbstaufmerksamkeitsmechanismus zur Extraktion begrenzter semantischer Informationen und nutzen die multidimensionalen Merkmalsbeziehungen nicht ausreichend, was zu einer groben Erkennung der Zielbereiche führt. Daher wird ein schwachüberwachtes semantisches Segmentierungsnetzwerk für Bilder vorgeschlagen, das durch spatio-temporales kontrastives Lernen (Spatio-temporal Contrastive Learning, STCL) angetrieben wird und darauf abzielt, Überwachungsinformationen aus zeitlicher und räumlicher Perspektive zu erschließen, um die Segmentierungsgenauigkeit zu verbessern. Durch den Token-Mechanismus von ViT wird ein räumliches Feature-Kontrastlernen-Modul eingeführt, das Patch- und Klassen-Token-Kontraststrategien kombiniert und die impliziten semantischen Merkmalsbeziehungen im Bildraum vertieft erforscht; ein temporales Kontext-Kontrastlernen-Modul wurde entworfen, das durch Erstellen eines Speichers vorheriges Wissen aus historischen Bildsegmentierungen nutzt, um die aktuelle semantische Segmentierungsaufgabe zu leiten, sowie eine Speicheraktualisierungsstrategie und adaptive speicherbasierte Kontrastverlustfunktion einführt, die die Fähigkeit des Modells zur Detailerkennung weiter verbessert. Experimentelle Ergebnisse zeigen, dass der durchschnittliche Intersection-over-Union-Wert (mIoU) auf den Datensätzen PASCAL VOC und MS COCO jeweils 72,7% bzw. 43,6% erreicht und die Überlegenheit der vorgeschlagenen Methode bestätigt.

关键词

Computervision;semantische Segmentierung;schwachüberwachtes Lernen;Klassenaktivierungskarten;Vision Transformer;Kontrastives Lernen

阅读全文