Versión mejorada de la red de segmentación semántica DeepLabv3+ con mecanismo de atención

YAN He ,  

LEI Qiuxia ,  

WANG Xu ,  

摘要

Ante la alta complejidad computacional de la red de segmentación semántica DeepLabv3+ y su débil capacidad para extraer detalles de la imagen y la borrosidad de los bordes de las imágenes segmentadas, se propuso una versión mejorada de la red de segmentación semántica DeepLabv3+ con un mecanismo de atención integrado. Utilizando la red ligera MobileNetV2 como columna vertebral, se redujo significativamente el número de parámetros del modelo manteniendo al mismo tiempo una alta capacidad de representación. Se agregó un mecanismo de atención liviano y sin parámetros (Módulo de Atención Simple, sin parámetros, SimAM) detrás de las características de bajo nivel de la red base para ponderar las características de entrada y así fortalecer la capacidad de extracción de características clave. El promedio global del módulo ASPP fue reemplazado por un muestreo descendente utilizando la transformada wavelet de Haar (Haar Wavelet Downsampling, HWD) para evitar la pérdida de información espacial, y luego se agregó un mecanismo de atención externo (Atención Externa, EANet) después del módulo ASPP para una mejor utilización de la información contextual, lo que permite una fusión multinivel para mejorar la capacidad de comprensión semántica y la precisión de la segmentación semántica. Los resultados experimentales muestran que este modelo mejora en un 2.82% la puntuación media de intersección sobre unión (mIoU) en comparación con el modelo inicial de segmentación semántica DeepLabv3+ en el conjunto de datos VOC2012. El modelo mejorado propuesto en este artículo mejora significativamente la precisión de la segmentación semántica del modelo y ofrece una nueva perspectiva para la aplicación en el campo de la visión por computadora.

关键词

Segmentación semántica; DeepLabV3+; Muestreo descendente utilizando la transformada wavelet de Haar; Mecanismo de atención externo; Fusión multinivel

阅读全文