Face à la complexité de calcul du réseau de segmentation sémantique DeepLabv3+ et à sa faible capacité d'extraction des détails de l'image et de la confusion des bords des images segmentées, une amélioration du réseau de segmentation sémantique DeepLabv3+ intégrant un mécanisme d'attention a été proposée. Utilisant le réseau léger MobileNetV2 comme épine dorsale, le nombre de paramètres du modèle a été considérablement réduit tout en conservant une capacité de représentation élevée. Un mécanisme d'attention léger et sans paramètre (module d'attention simple, sans paramètre, SimAM) a été ajouté derrière les caractéristiques de bas niveau du réseau de base pour pondérer les caractéristiques d'entrée afin de renforcer la capacité d'extraction des caractéristiques clés. Le pool moyen global du module ASPP a été remplacé par un sous-échantillonnage à l'aide de la transformée en ondelettes de Haar (Haar Wavelet Downsampling, HWD) pour éviter la perte d'informations spatiales, et ensuite un mécanisme d'attention externe (External Attention, EANet) a été ajouté après le module ASPP pour une meilleure utilisation de l'information contextuelle, permettant ainsi une fusion multi-échelle pour améliorer la capacité de compréhension sémantique et la précision de la segmentation sémantique. Les résultats expérimentaux montrent que ce modèle améliore de 2,82% le score moyen d'intersection sur union (mIoU) par rapport au modèle initial de segmentation sémantique DeepLabv3+ sur l'ensemble de données VOC2012. Le modèle amélioré proposé dans cet article améliore considérablement la précision de la segmentation sémantique du modèle et offre de nouvelles perspectives pour l'application dans le domaine de la vision par ordinateur.
关键词
Segmentation sémantique; DeepLabV3+; Sous-échantillonnage à l'aide de la transformée en ondelettes de Haar; Mécanisme d'attention externe; Fusion multi-échelle