Echtzeit-Bildsemantische Segmentierung basierend auf einem dreigleisigen Netzwerk

REN Fenglei ,  

GAO Ziyang ,  

ZHANG Yan ,  

ZHOU Haibo ,  

YANG Lu ,  

QIN Zhichang ,  

摘要

Angesichts der strengen Anforderungen an Genauigkeit und Echtzeit bei Anwendungen wie der Umgebungswahrnehmung im autonomen Fahren wird ein Echtzeit-Bild-Semantische-Segmentierung-Algorithmus auf Basis eines dreigleisigen Netzwerks vorgeschlagen, um eine effektive Balance zwischen Genauigkeit und Inferenzgeschwindigkeit des semantischen Segmentierungsmodells zu erreichen. Inspiriert vom PIDNet-Algorithmus wurde eine dreigleisige Netzwerkstruktur entworfen, die jeweils zur Extraktion von Bilddetails, semantischem Kontext und Kanteninformationen dient. Im semantischen Zweig wurde ein effizienter pyramidaler Pooling-Modul entworfen, um Kontextinformationen in verschiedenen Maßstäben zu erhalten und gleichzeitig das rezeptive Feld der Netzwerkmerkmale zu vergrößern. In den Detail- und Kantenzweigen wurden leichtgewichtige und effiziente mehrskalige Kanal-Interaktions-Achtsamkeitsmodule entworfen, um die extrahierten Merkmale zu verstärken. Schließlich werden die aus den drei Zweigen extrahierten Bildmerkmale fusioniert und das endgültige Ergebnis der semantischen Segmentierung ausgegeben. Die experimentellen Ergebnisse zeigen, dass der vorgeschlagene Echtzeit-Bild-Semantische-Segmentierungsalgorithmus auf Basis des dreigleisigen Netzwerks eine semantische Segmentierungsleistung von 79,2 % mIoU und 88,5 Bildern pro Sekunde auf dem Datensatz Cityscapes sowie 80,5 % mIoU und 140,1 Bildern pro Sekunde auf dem Datensatz CamVid erzielt. Der in dieser Arbeit vorgeschlagene Algorithmus kann die Aufgabe der Bildsemantischen Segmentierung effizient ausführen und erreicht eine hervorragende Balance zwischen Echtzeitfähigkeit und Genauigkeit mit einer deutlich besseren Segmentierungsleistung als bestehende Basisverfahren.

关键词

semantische Segmentierung;tiefes Lernen;Echtzeit;Aufmerksamkeitsmechanismus;mehrskalige Merkmale

阅读全文