Debido a los estrictos requisitos de precisión y tiempo real para aplicaciones como la percepción del entorno en conducción autónoma, y con el fin de equilibrar eficazmente la precisión y la velocidad de inferencia del modelo de segmentación semántica, se propone un algoritmo de segmentación semántica de imágenes en tiempo real basado en una red de tres ramas. Inspirándose en el algoritmo PIDNet, se diseña una estructura de red de tres ramas utilizadas para extraer la información detallada de la imagen, la información del contexto semántico y la información de los bordes, respectivamente. En la rama semántica se diseña un módulo eficiente de agrupación piramidal para obtener información contextual a diferentes escalas, aumentando al mismo tiempo el campo receptivo de las características de la red. En las ramas de detalles y bordes se diseñan módulos de atención ligera y eficiente de interacción multicanal a múltiples escalas para potenciar las características extraídas. Finalmente, se fusionan las características de la imagen extraídas de las tres ramas y se genera el resultado final de segmentación semántica. Los resultados experimentales muestran que el algoritmo propuesto basado en la red de tres ramas logra un rendimiento de segmentación semántica en tiempo real del 79.2% mIoU y 88.5 fotogramas por segundo en el conjunto de datos Cityscapes, y del 80.5% mIoU y 140.1 fotogramas por segundo en el conjunto de datos CamVid. El algoritmo propuesto puede realizar eficazmente la tarea de segmentación semántica de imágenes, logrando un excelente equilibrio entre tiempo real y precisión, con un rendimiento de segmentación significativamente superior a los métodos de referencia existentes.
关键词
segmentación semántica;aprendizaje profundo;tiempo real;mecanismo de atención;características multiescala