上一篇
|
下一篇
知識埋め込みガイドの双方向融合増強オープン語彙目標検出
JIN You
,
DENG Zhen
,
LIU Libo
,
DOI:
10.37188/OPE.20253318.2929
摘要
オープンシーンにおける検出器の新しいクラスの概念理解の弱さ、ラベルの混同、および新しいクラスの検出性能不足に対処して、知識埋め込みガイドの双方向融合増強オープン語彙目標検出(KI-DBFOVD)手法を提案しました。まず、ビジュアルランゲージモデル(VLM)によって生成された偽のラベルを使用して、新しいクラスの概念の学習を促進するために知識埋め込み(KI)モジュールを設計します。次に、ラベルマッチング(LM)モジュールを提案し、多段階の閾値調整とベースクラス-新クラス独立マッチングを用いてラベルマッチングプロセスを微調整し、検出器のトレーニングプロセス中のベースクラスと新クラスのラベルの混同現象を緩和します。最後に、伝統的な視覚分岐と視覚言語分岐を幾何平均の方法で融合し、新しい双方向融合モジュール(DBF)を構築し、ベースクラスの検出精度を維持しながら、新しいクラスのターゲットをより効果的に探知および位置特定することができるため、KI-DBFOVD手法全体の検出性能をさらに向上させます。実験の結果、本手法はCOCOデータセットで新しいクラスの検出精度が38.6%に達し、さらに多様なカテゴリで難しい検出がLVISデータセットで新しいクラスの検出精度が25.4%を達成し、複数の主流手法を上回り、さまざまなオープンシーンにより適しています。
关键词
オープン語彙の検出; 知識埋め込み; ラベルの照合; 双方向融合
阅读全文