تواجه الطرق السائدة لاكتشاف الحواف المستندة إلى الشبكات العصبية التلافيفية قيودًا في نطاق مجال الاستقبال وإدراك الحواف الدقيقة، ومع تطور الرؤية باستخدام Transformer، توفر قدراته على النمذجة العالمية وآلية التفاعل المرنة معلومات جديدة لمهمة اكتشاف الحواف. لحل هذه المشكلة، يقترح هذا البحث نموذج الترميز-إبطال TFEdge الذي يجمع بين محول الرؤية وأبراج التجميع متعدد المستويات مع وحدة تجميع الانتباه متعدد المقاييس لاكتشاف الحواف عالية الدقة. يُدخل هذا النموذج محول الانتباه للمحيط المتوسع كنواة الشبكة، ويستخرج معلومات السياق العالمي والخيوط الحواف المحلية من خلال تصميم متعدد المراحل. في الوقت نفسه، تم تصميم برج تجميع الميزات متعدد المستويات لدمج ميزات الطبقات العميقة والسطحية من المراحل المختلفة، مما يمنح الطبقات السطحية ميزات دلالية أغنى لقمع ضوضاء الصور وتحسين الكشف عن الحواف غير الواضحة. أخيرًا، تم اقتراح وحدة تجميع الانتباه متعددة المقاييس المستندة إلى آلية الانتباه لتعزيز تمثيل الميزات عبر تجميع معلومات الانتباه المكانية والقنوية عبر المقاييس المختلفة. تم التقييم التجريبي على مجموعات البيانات BSDS500 وNYUDv2، حيث حقق TFEdge على مجموعة BSDS500 درجات ODS وOIS F-score تبلغ 0.857 و0.874 على التوالي، وعلى NYUDv2 0.788 و0.801. مقارنةً بالطرق الحالية المختلفة، أظهر TFEdge أداء أفضل لاكتشاف الحواف من حيث النتائج الكمية والنوعية.
关键词
اكتشاف الحواف;Transformer;آلية الانتباه;برج تجميع الميزات متعدد المستويات;تعزيز الانتباه متعدد المقاييس