Segmentation sémantique d'image en temps réel basée sur un réseau à trois branches

REN Fenglei ,  

GAO Ziyang ,  

ZHANG Yan ,  

ZHOU Haibo ,  

YANG Lu ,  

QIN Zhichang ,  

摘要

Face aux exigences strictes d'exactitude et de temps réel pour des applications telles que la perception de l'environnement pour la conduite autonome, afin d'équilibrer efficacement la précision du modèle de segmentation sémantique et la vitesse d'inférence, une méthode de segmentation sémantique d'image en temps réel basée sur un réseau à trois branches est proposée. S'inspirant de l'algorithme PIDNet, une architecture réseau à trois branches est conçue pour extraire respectivement les détails de l'image, les informations contextuelles sémantiques et les informations de bord. Une module de pool pyramidal efficace est conçu dans la branche sémantique pour obtenir des informations contextuelles à différentes échelles, tout en augmentant le champ réceptif des caractéristiques du réseau. Des modules légers et efficaces d'attention multi-échelle par interaction de canaux sont conçus dans les branches détails et bord pour renforcer les caractéristiques extraites. Enfin, les caractéristiques d'image extraites des trois branches sont fusionnées pour produire le résultat final de segmentation sémantique. Les résultats expérimentaux montrent que l'algorithme proposé basé sur le réseau à trois branches atteint une performance de segmentation sémantique en temps réel avec 79,2% mIoU et 88,5 images/s sur le jeu de données Cityscapes, et 80,5% mIoU et 140,1 images/s sur le jeu de données CamVid. L'algorithme proposé peut effectuer efficacement la tâche de segmentation sémantique d'image, obtenant un excellent équilibre entre temps réel et précision, avec une performance de segmentation significativement supérieure aux méthodes de référence existantes.

关键词

segmentation sémantique;apprentissage profond;temps réel;mécanisme d'attention;caractéristiques multi-échelle

阅读全文