Сеть обнаружения границ на основе Transformer

LIN Jianpu ,  

LI Xianguang ,  

LIN Shanling ,  

LÜ Shanhong ,  

LIN Zhixian ,  

摘要

Существующие методы обнаружения границ, основанные на сверточных нейронных сетях, имеют ограничения в охвате рецептивного поля и мелкозернистом восприятии границ. С развитием визуального Transformer его глобальные возможности моделирования и гибкие механизмы информационного взаимодействия открывают новые возможности для задачи обнаружения границ. Для решения этой проблемы в данной работе предлагается кодировщик-декодер TFEdge, объединяющий визуальный Transformer и многоуровневую агрегационную пирамиду с модулем мульти-масштабного внимания, предназначенный для высокоточного обнаружения границ. Модель вводит расширенный трансформер с вниманием на основе соседства в качестве основной сети, извлекающей глобальный контекст изображения и локальные признаки границ через многослойный каскад. Одновременно разработана многоуровневая агрегированная пирамидальная структура для объединения признаков глубоких и мелких слоев, что придает более богатые семантические характеристики мелким слоям для подавления шума изображения и улучшения способности обнаружения неочевидных границ. В конце предложен модуль мульти-масштабного внимания на основе механизма внимания, который агрегирует пространственную и канальную информацию внимания из признаков на разных масштабах для дальнейшего усиления представления признаков. Эксперименты выполнены на наборах данных BSDS500 и NYUDv2, где TFEdge достигает значений F-score ODS и OIS 0.857 и 0.874 на BSDS500, а также 0.788 и 0.801 на NYUDv2 соответственно. По сравнению с различными существующими методами TFEdge показывает превосходные результаты обнаружения границ как в количественном, так и в качественном плане.

关键词

обнаружение границ;Transformer;механизм внимания;многоуровневая агрегированная пирамида признаков;мульти-масштабное усиление внимания

阅读全文