Fußgängererkennungsalgorithmus basierend auf der gemeinsamen Nutzung von Kopf- und Ganzkörperinformationen

MA Ximing ,  

LI Ning ,  

WU Di ,  

LIU Yidou ,  

YU Xiangyue ,  

LI Zheng ,  

摘要

In dichten Szenen sinkt die Genauigkeit des Detektors aufgrund von Verdeckungen des Körpers und unterschiedlicher Größen der Fußgänger. Der Kopf der Fußgänger ist jedoch oft weniger verdeckt und kann daher zur Unterstützung der Erkennung verwendet werden. Daher wird ein Fußgängererkennungsalgorithmus vorgeschlagen, der auf der gemeinsamen Nutzung von Kopf- und Ganzkörperinformationen basiert. Zunächst wurde ein Merkmalsextraktionsnetzwerk entwickelt, das auf dichten Verbindungen und verstärkter Fusion basiert, um die Extraktion von Mehrskalenmerkmalen zu stärken und die Empfindlichkeit des Netzwerks für die Erkennung von Fußgängern verschiedener Größen zu erhöhen. Zweitens wurde der Abtastmechanismus des Region Proposal Networks optimiert, und es wurde eine nicht-uniforme Mining-Strategie für schwierige Beispiele basierend auf der Verdeckungsüberlappungsrate vorgeschlagen, wobei der Fokus auf stark verdeckten schwierigen Beispielen liegt, um die Anpassungsfähigkeit des Netzwerks an Verdeckungen zu verbessern. Anschließend wurde eine gemeinsame Erkennungsstrategie für Kopf und Ganzkörper entwickelt und der Nachbearbeitungsschritt optimiert, wobei die Kopf-Erkennungsergebnisse genutzt werden, um fälschlich unterdrückte Ganzkörper-Erkennungsrahmen aufgrund von Verdeckungen wiederherzustellen, wodurch die Auslassungsrate reduziert wird. Gleichzeitig wurde die Verlustfunktion an die Merkmale des gemeinsamen Erkennungsrahmens angepasst, um Fehl- und Auslassungen durch Verdeckungen weiter zu reduzieren. Schließlich wurde die Wirksamkeit des vorgeschlagenen Algorithmus experimentell bestätigt. Die Ergebnisse zeigen, dass der Algorithmus die logarithmische mittlere Auslassungsrate beim stark verdeckten CrowdHuman-Datensatz um 5,7 % senkt und die mittlere Genauigkeit um 4 % erhöht. Auf zwei kleinen Skalen-Subsets des TJU-DHD-pedestrian-Datensatzes werden die logarithmischen mittleren Auslassungsraten um 2,4 % bzw. 2,1 % gesenkt, wodurch die Erkennungsfähigkeit für verdeckte und mehrskalige Fußgänger effektiv verbessert wird.

关键词

Fußgängererkennung; Gemeinsame Erkennung; Mehrskalige Merkmalsfusion; Mining schwieriger Beispiele; Nachbearbeitungsoptimierung

阅读全文