Pour résoudre le problème de l’échelle unique d’extraction des caractéristiques, la perte de détails et le flou des contours dans la segmentation sémantique d’images aériennes, cet article propose un réseau de segmentation sémantique d’images aériennes basé sur l’interaction inter-niveaux et la perception de l’orientation. Un module de perception de l’orientation est construit via une stratégie d’attention de découplage directionnel, renforçant la capacité du modèle à traiter l’information directionnelle spatiale ; un module d’interaction inter-niveaux est conçu pour fusionner l’interaction des caractéristiques entre canaux, améliorant la perception spatiale, tout en utilisant un mécanisme d’attention canal-espace pour renforcer l’extraction des caractéristiques et atténuer les problèmes de flou des détails dans des scènes complexes ; enfin, une conception légère de la tête de segmentation est adoptée, supprimant les opérations redondantes, réduisant la charge de calcul tout en garantissant la performance de segmentation. Les résultats expérimentaux montrent que le réseau proposé a amélioré l’indice intersection sur union moyen sur les ensembles de données UAVid et Aeroscapes de 1,7 % et 1,3 % respectivement comparé au modèle de base SegFormer, prouvant l’efficacité du réseau dans les contextes complexes tels que les images aériennes. La classe Human a vu une amélioration de 1,8 % de la précision de segmentation par rapport au modèle de base, démontrant une excellente performance sur la segmentation des petits objets. Comparé à plusieurs réseaux populaires, cette méthode a obtenu la meilleure précision de segmentation sur les deux ensembles de données, montrant une meilleure capacité de généralisation.