Guided Double Branch Fusion zur Verbesserung der Erkennung offener Ziele durch Wissensinkorporation

JIN You ,  

DENG Zhen ,  

LIU Libo ,  

摘要

Um das Problem des schwachen Verständnisses eines neuen Detektor-Konzepts in einem offenen Szenario, der Etikettenverwechslung und der unzureichenden Leistung bei der Erkennung neuer Klassen zu lösen, wurde eine Methode zur Verbesserung der Erkennung offener Ziele durch die Verschmelzung eines verbesserten Zweigs mit eingebettetem Wissen (KI-DBFOVD) vorgeschlagen. Erstens wurde ein Wissensinkorporationsmodul (KI) entworfen, das von einem visuell-sprachlichen Modell (VLM) generierte gefälschte Etiketten verwendet, um sie in den Detektor zu integrieren, um das Verständnis des neuen Konzepts zu fördern. Dann wurde ein Etikettenabgleichmodul (LM) vorgeschlagen, das durch Einstellung multipler Schwellenwerte und unabhängige Zuordnung zwischen Basisklassen und neuen Klassen den Prozess des präzisen Etikettenabgleichs verfeinerte und die Verwirrung der Etiketten zwischen Basisklassen und neuen Klassen während des Detektortrainings milderte. Schließlich wurden der traditionelle visuelle Zweig und der visuell-sprachliche Zweig durch ein geometrisches Mittel fusioniert, um einen neuen einzigartigen Doppelzweigfusionszweig (DBF) zu schaffen, der bei gleichzeitiger Aufrechterhaltung der Erkennungsgenauigkeit von Basisklassen neue Ziele effektiver suchen und lokalisieren kann und somit die Gesamtleistung von KI-DBFOVD verbessert. Die Experimente zeigen, dass die in diesem Artikel vorgeschlagene Methode eine Erkennungsgenauigkeit von 38,6 % für neue Klassen im COCO-Datensatz erreicht. Sie erzielt eine Erkennungsgenauigkeit von 25,4 % für neue Klassen im LVIS-Datensatz, der mehrere vielfältige und schwieriger zu erkennende Klassen enthält als populäre Methoden und somit in verschiedenen offenen Szenarien besser angewandt werden kann.

关键词

Erkennung offener Ziele; Wissensinkorporation; Etikettenabgleich; doppelte Zweigfusion

阅读全文