Forschung und Anwendung der Mehrfachfokus-Bildfusion basierend auf der CNN- und Transformer-Architektur

WANG Yuxuan ,  

XIA Zhenping ,  

LUO Ge ,  

CHENG Cheng ,  

摘要

Zur Lösung des Problems, dass ein einzelnes fokussiertes Bild nicht gleichzeitig vollständige Szeneninhalte darstellen kann, wird in diesem Artikel ein End-to-End-Algorithmus zur Mehrfachfokussierung von Bildern vorgeschlagen, um die Genauigkeit und Praktikabilität der Bildfusion zu verbessern. In der Codierungsphase wird ein Encoder mit einer parallelen Struktur kombiniert aus dichtem Faltungs-CNN und Transformer entwickelt, um effizient hochfrequente und niederfrequente Bildmerkmale zu extrahieren, wobei ein räumlicher Aufmerksamkeitsmechanismus eingeführt wird, um die Merkmalsdarstellung zu verbessern. In der Fusionsphase wird eine auf semantischen Prioritäten basierende Kreuzfusionsstrategie entworfen, die hochfrequente Details unter Anleitung von niederfrequenten Informationen präzise einbettet, wodurch das Bias-Problem zwischen Fern- und Nahfokus traditioneller Methoden effektiv gemildert wird und der Kontrast sowie die Detailerhaltung des fusionierten Bildes signifikant verbessert werden. Im Vergleich zu den neuesten Forschungsmethoden auf den Datensätzen Lytro, COCO und MFFW sowie sieben fortgeschrittenen Bildfusionsalgorithmen erzielt die vorgeschlagene Methode signifikante Vorteile in mehreren Metriken, wobei EN, PSNR, SSIM, MI, AG und SF um 2,7 %, 13,6 %, 7,9 %, 6,5 %, 1,6 % bzw. 3,7 % gesteigert wurden. Darüber hinaus wurde die Leistung bei den nachfolgenden Aufgaben der Chip-Pin-Erkennung und Chip-Zentrumslokalisierung verbessert, was die Praktikabilität und Allgemeingültigkeit des Algorithmus bestätigt. Die in diesem Artikel vorgestellte Methode zeigt sowohl in Bezug auf Fusionsqualität als auch auf Ergebnisse der nachfolgenden Aufgaben hervorragende Leistungen und besitzt ein gutes Anwendungspotenzial, um den Anforderungen an Geschwindigkeit und Präzision der Mehrfachfokusbildfusion in praktischen Erkennungsaufgaben gerecht zu werden.

关键词

Mehrfachfokus-Bildfusion; Transformer; Multi-Head-Attention-Mechanismus; Chip-Erkennung; Chip-Detektion

阅读全文