Insertion de connaissances guidée à double fusion pour améliorer la détection d'objets dans un contexte ouvert

JIN You ,  

DENG Zhen ,  

LIU Libo ,  

摘要

Face aux faibles performances de compéhension des nouveaux concepts détecteurs dans les scènes ouvertes, à la confusion des étiquettes et aux performances insuffisantes de la détection de nouveaux objets, une méthode d'amélioration de la détection d'objets ouverts par insertion de connaissances guidée à double fusion a été proposée. Tout d'abord, un module d'insertion de connaissances (KI) a été conçu, utilisant des étiquettes générées par un modèle langue-vision (VLM), insérées dans le détecteur pour favoriser l'apprentissage de nouveaux concepts. Ensuite, un module d'appariement d'étiquettes (LM) a été proposé, réglant les seuils à plusieurs niveaux et affinant le processus d'appariement indépendant des classes de base et des nouvelles classes pour atténuer la confusion des étiquettes lors de l'entraînement du détecteur. Enfin, les branches visuelles traditionnelles et visuelles-langagières sont fusionnées par moyenne géométrique pour construire un nouveau module de fusion à double branche (DBF), capable de détecter et de positionner plus efficacement de nouveaux objets, tout en maintenant la précision de la détection des classes de base, améliorant ainsi les performances globales de la méthode KI-DBFOVD. Les résultats expérimentaux montrent que la méthode présentée dans cet article atteint une précision de détection des nouvelles classes de 38,6% sur l'ensemble de données COCO et de 25,4% sur l'ensemble de données LVIS, qui contient des classes plus nombreuses et plus difficiles à détecter, surpassant plusieurs méthodes courantes et pouvant donc mieux s'appliquer dans différents scénarios ouverts.

关键词

Détection d'objets ouverts; insertion de connaissances; appariement d'étiquettes; double fusion

阅读全文