Pour résoudre le problème selon lequel une seule image focalisée ne peut pas présenter simultanément toutes les informations complètes de la scène, cet article propose un algorithme de fusion d'images multi-focales de bout en bout afin d'améliorer la précision et la praticité de la fusion d'images. Lors de la phase d'encodage, un encodeur combinant un CNN convolutif dense et une structure parallèle Transformer est construit pour extraire efficacement les caractéristiques haute et basse fréquence de l'image, avec l'introduction d'un mécanisme d'attention spatiale pour renforcer la capacité d'expression des caractéristiques. Dans la phase de fusion, une stratégie de fusion croisée guidée par des priorités sémantiques est conçue, permettant d'incorporer précisément les détails haute fréquence sous la direction des informations basse fréquence, ce qui atténue efficacement le biais entre focalisation lointaine et proche des méthodes traditionnelles et améliore significativement le contraste et la conservation des détails de l'image fusionnée. Comparé aux méthodes récentes sur les ensembles de données Lytro, COCO et MFFW avec sept algorithmes avancés de fusion d'images, la méthode proposée obtient des avantages significatifs sur plusieurs indicateurs, EN, PSNR, SSIM, MI, AG et SF ayant augmenté respectivement de 2,7 %, 13,6 %, 7,9 %, 6,5 %, 1,6 % et 3,7 %. De plus, des améliorations de performance sont également réalisées dans les tâches descendantes de reconnaissance des broches de puce et de localisation du centre de la puce, validant ainsi la praticité et la généralité de l'algorithme. La méthode présentée dans cet article montre d'excellentes performances en termes de qualité de fusion et de résultats dans les tâches en aval, offrant un bon potentiel d'application pour répondre aux besoins de rapidité et de précision de la fusion multi-focale dans les tâches de détection pratiques.
关键词
fusion d'images multi-focales; Transformer; mécanisme d'attention multi-tête; reconnaissance de puces; détection de puces