Red de detección de bordes basada en Transformer

LIN Jianpu ,  

LI Xianguang ,  

LIN Shanling ,  

LÜ Shanhong ,  

LIN Zhixian ,  

摘要

Los métodos predominantes actuales de detección de bordes basados en redes neuronales convolucionales presentan limitaciones en el alcance del campo receptivo y en la percepción de bordes de alta resolución. Con el desarrollo del Transformer visual, sus capacidades de modelado global y el mecanismo flexible de interacción de información han aportado nuevas posibilidades a la tarea de detección de bordes. Para resolver este problema, este artículo propone un modelo codificador-decodificador TFEdge que combina el Transformer visual con una pirámide de agregación multinivel y un módulo de agregación de atención multiescala para la detección precisa de bordes. El modelo introduce el Transformer de atención en vecindad dilatada como red principal, extrayendo información contextual global y pistas locales de bordes a través de un diseño de apilamiento multietapa. Además, se diseñó una pirámide de características de agregación multinivel para fusionar características de capas profundas y superficiales en cada etapa, proporcionando características semánticas más ricas a las capas superficiales para suprimir el ruido de la imagen y mejorar la detección de bordes poco evidentes. Finalmente, se propone un módulo de agregación de atención multiescala basado en el mecanismo de atención, que mejora aún más la representación de características al agregar información de atención espacial y de canal a través de escalas. Los experimentos se realizaron en los conjuntos de datos BSDS500 y NYUDv2, donde TFEdge alcanzó puntajes F ODS y OIS de 0.857 y 0.874 respectivamente en BSDS500, y 0.788 y 0.801 en NYUDv2. En comparación con varios métodos existentes, TFEdge muestra un rendimiento superior en la detección de bordes tanto en resultados cuantitativos como cualitativos.

关键词

detección de bordes;Transformer;mecanismo de atención;pirámide de características de agregación multinivel;refuerzo de atención multiescala

阅读全文