Angesichts der hohen Rechenkomplexität des DeepLabv3+ Semantik-Segmentierungsnetzwerks und seiner geringen Fähigkeit, Bilddetails zu extrahieren und die Unschärfe der Ränder segmentierter Bilder zu verringern, wurde eine verbesserte Version des DeepLabv3+ Semantik-Segmentierungsnetzwerks mit einem integrativen Aufmerksamkeitsmechanismus vorgeschlagen. Unter Verwendung des leichten Netzwerks MobileNetV2 als Rückgrat wurde die Anzahl der Modellparameter erheblich reduziert, während die Repräsentationsfähigkeit hoch gehalten wurde. Hinter den Merkmalen der niedrigen Ebene des Basistreibnetzes wurde ein leichter, parameterfreier Aufmerksamkeitsmechanismus (Simple, Parameter-Free Attention Module, SimAM) hinzugefügt, um die Eingangsmerkmale zu gewichten und die Fähigkeit zur Extraktion wichtiger Merkmale zu stärken. Der globale Mittelwert des ASPP-Moduls wurde durch eine Abtastung mit Hilfe der Haar-Wavelet-Downsampling (HWD)-Transformation ersetzt, um Informationsverluste im Raum zu vermeiden, und nach dem ASPP-Modul wurde ein externer Aufmerksamkeitsmechanismus (External Attention, EANet) hinzugefügt, um Kontextinformationen besser zu nutzen und eine Multiskalenfusion zur Verbesserung der semantischen Verständnisfähigkeit und der Segmentierungsgenauigkeit zu erreichen. Die Experimentergebnisse zeigen, dass dieses Modell im Vergleich zum ursprünglichen DeepLabv3+ Semantik-Segmentierungsmodell auf dem VOC2012-Datensatz den durchschnittlichen Intersections-over-Union (mIoU)-Wert um 2,82% verbessert hat. Das in diesem Artikel vorgeschlagene verbesserte Modell hat die Genauigkeit der semantischen Segmentierung des Modells deutlich verbessert und neue Anwendungsperspektiven im Bereich Computer Vision aufgezeigt.
关键词
Semantische Segmentierung; DeepLabV3+; Abtastung mit Hilfe der Haar-Wavelet-Downsampling-Transformation; Externer Aufmerksamkeitsmechanismus; Multiskalenfusion