Die derzeitigen bildebenen schwachüberwachten Methoden zur semantischen Segmentierung, die auf Vision Transformer (ViT) basieren, beruhen hauptsächlich auf dem Selbstaufmerksamkeitsmechanismus zur Extraktion begrenzter semantischer Informationen und nutzen die multidimensionalen Merkmalsbeziehungen nicht ausreichend, was zu einer groben Erkennung der Zielbereiche führt. Daher wird ein schwachüberwachtes semantisches Segmentierungsnetzwerk für Bilder vorgeschlagen, das durch spatio-temporales kontrastives Lernen (Spatio-temporal Contrastive Learning, STCL) angetrieben wird und darauf abzielt, Überwachungsinformationen aus zeitlicher und räumlicher Perspektive zu erschließen, um die Segmentierungsgenauigkeit zu verbessern. Durch den Token-Mechanismus von ViT wird ein räumliches Feature-Kontrastlernen-Modul eingeführt, das Patch- und Klassen-Token-Kontraststrategien kombiniert und die impliziten semantischen Merkmalsbeziehungen im Bildraum vertieft erforscht; ein temporales Kontext-Kontrastlernen-Modul wurde entworfen, das durch Erstellen eines Speichers vorheriges Wissen aus historischen Bildsegmentierungen nutzt, um die aktuelle semantische Segmentierungsaufgabe zu leiten, sowie eine Speicheraktualisierungsstrategie und adaptive speicherbasierte Kontrastverlustfunktion einführt, die die Fähigkeit des Modells zur Detailerkennung weiter verbessert. Experimentelle Ergebnisse zeigen, dass der durchschnittliche Intersection-over-Union-Wert (mIoU) auf den Datensätzen PASCAL VOC und MS COCO jeweils 72,7% bzw. 43,6% erreicht und die Überlegenheit der vorgeschlagenen Methode bestätigt.