Die derzeit verbreiteten auf Convolutional Neural Networks basierenden Kantenerkennungsmethoden weisen Einschränkungen im Bereich des Rezeptiven Feldes und der feinkörnigen Kantenerkennung auf. Mit der Entwicklung des Visual Transformers bieten dessen globale Modellierungsfähigkeit und flexible Informationsaustauschmechanismen neue Möglichkeiten für die Kantenerkennungsaufgabe. Um dieses Problem zu lösen, stellt dieser Artikel ein Encoder-Decoder-Modell TFEdge vor, das Visual Transformer mit einer mehrstufigen Aggregationspyramide und einem Multiskalen-Aggregationsaufmerksamkeitsmodul kombiniert, um eine hochpräzise Kantenerkennung zu ermöglichen. Das Modell verwendet den Dilated Neighborhood Attention Transformer als Rückgratnetzwerk, das über das mehrstufige Stapeldesign globale Kontextinformationen und lokale Kantenspuren aus Bildern extrahiert. Gleichzeitig wurde eine mehrstufige aggregierte Merkmale-Pyramide entwickelt, die die tiefen und flachen Merkmale der einzelnen Stufen aggregiert und so flachen Merkmalen reichhaltigere semantische Eigenschaften verleiht, um Bildrauschen zu unterdrücken und die Erkennung von weniger auffälligen Kanten zu verbessern. Schließlich wurde ein auf einem Aufmerksamkeitsmechanismus basierendes Multiskalen-Aggregationsaufmerksamkeitsmodul vorgeschlagen, das durch Aggregation raumübergreifender und kanalbezogener Aufmerksamkeitsinformationen die Merkmalsdarstellung weiter verstärkt. Experimente wurden auf den Datensätzen BSDS500 und NYUDv2 durchgeführt. TFEdge erzielte auf BSDS500 ODS- und OIS-F-Score-Werte von 0,857 bzw. 0,874 und auf NYUDv2 Werte von 0,788 bzw. 0,801. Im Vergleich zu verschiedenen bestehenden Methoden zeigt TFEdge sowohl quantitativ als auch qualitativ überlegene Kantenerkennungsleistungen.