Angesichts der geringen Leistung bei der Erfassung neuer Konzepte für Detektoren in offenen Szenarien, der Verwirrung über Beschriftungen und der unzureichenden Leistung bei der Erfassung neuer Objekte wurde eine Methode zur Verbesserung der Erfassung offener Objekte durch Anleitung von Wissenseinbettung in eine doppelte Verschmelzung vorgeschlagen. Zunächst wurde ein Wissensermittlungsmodul (KI) entwickelt, das gefälschte Etiketten, die von einem visuellen Sprachmodell (VLM) generiert wurden, in den Detektor einbettet, um das Lernen neuer Konzepte zu fördern. Anschließend wurde ein Etikettenabgleichsmodul (LM) vorgeschlagen, das die Schwellenwerte auf mehreren Ebenen einstellt und das unabhängige Abgleichsverfahren zwischen Basisklassen und neuen Klassen verfeinert, um die Verwirrung über Etiketten während des Trainings des Detektors zu mildern. Schließlich wurden die traditionellen visuellen und visuell-sprachlichen Zweige durch ein geometrisches Mittel verschmolzen, um ein neues Doppelverschmelzungsmodul (DBF) zu konstruieren, das in der Lage ist, neue Objekte effektiver zu erfassen und zu positionieren, während es gleichzeitig die Genauigkeit bei der Erfassung von Basisklassen erhalten bleibt und so die Gesamtleistung der Methode KI-DBFOVD verbessert. Die experimentellen Ergebnisse zeigen, dass die in diesem Artikel vorgestellte Methode auf dem COCO-Datensatz eine Erkennungsgenauigkeit neuer Klassen von 38,6% und auf dem LVIS-Datensatz, der eine größere Anzahl und schwierigere Erkennungsklassen enthält, eine Erkennungsgenauigkeit von 25,4% erreicht, wodurch mehrere gängige Methoden übertroffen werden und daher in verschiedenen offenen Szenarien besser eingesetzt werden kann.