Для решения проблемы понимания новых концепций детектора в открытом контексте, смешанных и неоднозначных меток и недостаточной производительности обнаружения новых классов был разработан метод повышения эффективности обнаружения открытых объектов с помощью направленной вставки знаний в двойное слияние. Сначала был разработан модуль вставки знаний (KI), использующий ложные метки, сгенерированные визуальной языковой моделью (VLM), встраивая их в детектор для стимулирования изучения новых концепций. Затем был представлен модуль сопоставления меток (LM), который, путем многоуровневой настройки порогов и детализации независимого сопоставления базовых классов и новых классов, смягчает путаницу меток в процессе обучения детектора. Наконец, традиционное визуальное и визуально-языковое ответвление объединены с помощью геометрического среднего, построив новый модуль двойного слияния (DBF), способный на более эффективное обнаружение и позиционирование новых объектов, при сохранении точности обнаружения базовых классов, что дополнительно повышает общую производительность метода KI-DBFOVD. Результаты экспериментов показали, что метод, описанный в этой статье, достигает точности обнаружения новых классов на наборе данных COCO в 38,6% и на наборе данных LVIS, содержащем более многочисленные и более сложные классы обнаружения, в 25,4%, что превосходит несколько основных методов и может лучше применяться в различных открытых сценариях.
关键词
Обнаружение открытых объектов; вставка знаний; сопоставление меток; двойное слияние