توجيه الدمج المزدوج المحسن بتضمين المعرفة لزيادة كفاءة كشف الكائنات في الكلمات المفتوحة

JIN You ,  

DENG Zhen ,  

LIU Libo ,  

摘要

واجهت مشكلة فهم المفاهيم الجديدة لمعرف الكائن في السياق المفتوح، واضطراب التسمية وضعف أداء الكشف عن المفاهيم الجديدة. لذا، تم تقديم طريقة جديدة لزيادة كفاءة كشف الكائنات في الكلمات المفتوحة بتوجيه الدمج المزدوج المحسن بتضمين المعرفة. أولاً، تم تصميم وحدة التضمين (KI) لاستخدام علامات مزيفة تم توليدها بواسطة نموذج لغة بصرية (VLM) وتضمينها في جهاز الكشف لتعزيز تعلم المفاهيم الجديدة. بعد ذلك، تم تقديم وحدة التطابق بالعلامات (LM) لتفادي الضطرب التسمية في عملية تدريب جهاز الكشف عن طريق تعديل الحدود متعددة المستويات وتفصيل عملية تطابق العلامات المستقلة بين الفئة الأساسية والفئة الجديدة. أخيراً، تم دمج الفرع البصري التقليدي وفرع اللغة البصرية بطريقة هندسية متوسطة، لبناء وحدة دمج مزدوجة جديدة (DBF) تمكن من تنقيب وتحديد الكائنات الجديدة بفعالية أكبر ورفع كفاءة كشف KI-DBFOVD بشكل أكبر في الوقت الذي يحافظ فيه على دقة كشف الفئة الأساسية. أظهرت النتائج التجريبية أن الطريقة المقدمة في هذه الورقة يمكنها تحقيق دقة اكتشاف الفئة الجديدة بنسبة 38.6٪ على مجموعة بيانات COCO وتحقيق دقة اكتشاف بنسبة 25.4٪ للفئة الجديدة على مجموعة بيانات LVIS التي تحتوي على فئات متعددة وتبعد صعوبة الكشف. هذا أفضل من الطرق الشائعة، ويمكن أن يكون تطبيقه بشكل أفضل في سياقات مفتوحة مختلفة.

关键词

كشف الكائنات في الكلمات المفتوحة; تضمين المعرفة; التطابق بالعلامات; الدمج المزدوج

阅读全文