Fusión de doble rama guiada por un conocimiento incorporado para mejorar la detección de objetivos abiertos

JIN You ,  

DENG Zhen ,  

LIU Libo ,  

摘要

Para resolver el problema de la comprensión débil de un nuevo concepto de detector en un escenario abierto, la confusión de etiquetas y el rendimiento insuficiente de detección de nuevas clases, se propuso un método de mejora de detección de objetivos abiertos mediante la fusión de una rama mejorada con un conocimiento incorporado (KI-DBFOVD). En primer lugar, se diseñó un módulo de incorporación de conocimientos (KI), utilizando etiquetas falsas generadas por un modelo visual-lenguaje (VLM), para incorporarlas en el detector con el fin de fomentar el aprendizaje del nuevo concepto. Luego, se propuso un módulo de emparejamiento de etiquetas (LM), ajustando umbrales multinivel y realizando un emparejamiento independiente entre clases base y nuevas clases para refinar el proceso de emparejamiento de etiquetas, aliviando la confusión de etiquetas entre clases base y nuevas clases durante el proceso de entrenamiento del detector. Finalmente, la rama visual tradicional y la rama visual-lenguaje se fusionaron mediante un promedio geométrico para crear una nueva rama de fusión de doble rama (DBF), que, manteniendo la precisión de detección de clases base, puede buscar y posicionar de manera más eficaz los nuevos objetivos, mejorando así el rendimiento general del método KI-DBFOVD. Los resultados de los experimentos muestran que el método propuesto en este artículo logra una precisión de detección de nuevas clases del 38,6% en el conjunto de datos COCO. Logra una precisión de detección de nuevas clases del 25,4% en el conjunto de datos LVIS, que contiene conjuntos de clases más diversos y más difíciles de detectar, superando varios métodos populares, y por lo tanto se puede aplicar mejor en diferentes escenarios abiertos.

关键词

detección de objetivos abiertos; conocimiento incorporado; emparejamiento de etiquetas; fusión de doble rama

阅读全文