Inserción de conocimientos guiada por doble fusión para mejorar la detección de objetos en contextos abiertos

JIN You ,  

DENG Zhen ,  

LIU Libo ,  

摘要

Ante la escasa comprensión de los nuevos conceptos detectores en escenarios abiertos, la confusión de etiquetas y el rendimiento insuficiente en la detección de nuevos objetos, se propuso un método de mejora de la detección de objetos abiertos mediante la inserción de conocimientos guiada por la doble fusión. En primer lugar, se diseñó un módulo de inserción de conocimientos (KI), utilizando etiquetas generadas por un modelo de lenguaje visual (VLM) e insertándolas en el detector para favorecer el aprendizaje de nuevos conceptos. A continuación, se propuso un módulo de emparejamiento de etiquetas (LM), ajustando los umbrales a varios niveles y refinando el proceso de emparejamiento independiente de las clases base y las nuevas clases para mitigar la confusión de etiquetas durante el entrenamiento del detector. Finalmente, las ramas visuales tradicionales y visuales-lenguaje se fusionaron mediante la media geométrica para construir un nuevo módulo de fusión de doble rama (DBF), capaz de detectar y posicionar de manera más efectiva nuevos objetos, manteniendo al mismo tiempo la precisión en la detección de clases base, mejorando así el rendimiento general del método KI-DBFOVD. Los resultados experimentales muestran que el método presentado en este artículo alcanza una precisión de detección de nuevas clases del 38,6% en el conjunto de datos COCO y del 25,4% en el conjunto de datos LVIS, que contiene clases más numerosas y más difíciles de detectar, superando a varios métodos comunes y pudiendo aplicarse mejor en diferentes escenarios abiertos.

关键词

Detección de objetos abiertos; inserción de conocimientos; emparejamiento de etiquetas; doble fusión

阅读全文