Les méthodes actuelles de détection des contours basées sur les réseaux de neurones convolutionnels présentent des limitations en termes de champ réceptif et de perception des contours fins. Avec le développement du Transformer visuel, sa capacité de modélisation globale et son mécanisme flexible d’échange d’informations apportent de nouvelles possibilités à la tâche de détection des contours. Pour résoudre ce problème, cet article propose un modèle encodeur-décodeur TFEdge combinant le Transformer visuel, une pyramide d’agrégation multifocale et un module d’agrégation d’attention multi-échelle pour la détection précise des contours. Le modèle introduit le Transformer à attention dilatée de voisinage comme réseau principal, extrayant les informations contextuelles globales de l’image et les indices locaux de contours via une conception en plusieurs étapes. Parallèlement, une pyramide d’agrégation des caractéristiques multi-niveaux est conçue pour agréger les caractéristiques des couches profondes et superficielles de chaque étape, conférant aux couches superficielles des caractéristiques sémantiques plus riches afin de supprimer le bruit de l’image et d’améliorer la détection des contours peu apparents. Enfin, un module d’agrégation d’attention multi-échelle basé sur le mécanisme d’attention est proposé, renforçant davantage la représentation des caractéristiques en agrégeant les informations d’attention spatiale et canal à travers différentes échelles. Les expérimentations ont été menées sur les jeux de données BSDS500 et NYUDv2. TFEdge atteint des valeurs F-score ODS et OIS respectivement de 0,857 et 0,874 sur BSDS500, et de 0,788 et 0,801 sur NYUDv2. Comparé à diverses méthodes existantes, TFEdge présente des performances supérieures en détection des contours tant sur les résultats quantitatifs que qualitatifs.
关键词
détection des contours;Transformer;mécanisme d'attention;pyramide d’agrégation multi-niveaux;renforcement d’attention multi-échelle