شبكة تجزئة دلالية للصورة الضعيفة الإشراف مدفوعة بالتعلم التبايني الزمني والمكاني

LIANG Zhen ,  

HU Yanzhu ,  

YANG Yang ,  

摘要

تعتمد الطرق الحالية لتجزئة الصور الضعيفة الإشراف على مستوى الصورة القائمة على محولات الرؤية (Vision Transformer، ViT) بشكل رئيسي على آلية الانتباه الذاتي لاستخراج معلومات دلالية محدودة، مما يؤدي إلى استخدام غير كافٍ للعلاقات متعددة الأبعاد بين الميزات، مما يجعل التعرف على مناطق الهدف أكثر غموضًا. بناءً عليه، تم اقتراح شبكة تجزئة دلالية للصورة الضعيفة الإشراف مدفوعة بالتعلم التبايني الزمني والمكاني (Spatio-temporal Contrastive Learning، STCL) تهدف إلى استخراج المعلومات الإشرافية من حيث الزمن والمكان لتحسين دقة التجزئة. من خلال آلية الرموز في ViT، تم إدخال وحدة تعلم تبايني للميزات المكانية تجمع بين استراتيجية تعلم تبايني على مستوى الرقع والر مؤشرات الفئات، لاستكشاف عميق للعلاقات الدلالية المخفية في فضاء الصورة؛ وصُممت وحدة تعلم تبايني للسياق الزمني من خلال بناء ذاكرة للاستفادة من المعرفة السابقة في تجزئة الصور التاريخية لتوجيه مهمة التجزئة الحالية، كما تم إنشاء استراتيجية تحديث لذاكرة التخزين المؤقت وخسارة تباينية ذاكرة تكيفية لتعزيز قدرة النموذج على التمييز في مناطق التفاصيل. أظهرت النتائج التجريبية أن متوسط تقاطع الاتحاد (mIoU) بلغ 72.7٪ و43.6٪ على مجموعتي بيانات PASCAL VOC وMS COCO على التوالي، مما يثبت تفوق الطريقة المقترحة.

关键词

رؤية الحاسوب;تجزئة دلالية;تعلم ضعيف الإشراف;خرائط تنشيط الفئة;محول الرؤية;التعلم التبايني

阅读全文