Investigación y aplicación de la fusión de imágenes multifocal basada en la arquitectura CNN y Transformer

WANG Yuxuan ,  

XIA Zhenping ,  

LUO Ge ,  

CHENG Cheng ,  

摘要

Para abordar el problema de que una imagen con un solo enfoque no puede mostrar simultáneamente toda la información completa de la escena, este artículo propone un algoritmo de fusión de imágenes multifocal de extremo a extremo para mejorar la precisión y practicidad de la fusión de imágenes. En la fase de codificación, se construye un codificador con una estructura en paralelo que combina una CNN convolucional densa y Transformer para extraer eficientemente las características de alta y baja frecuencia de la imagen, introduciendo un mecanismo de atención espacial para mejorar la capacidad de expresión de las características. En la fase de fusión, se diseña una estrategia de fusión cruzada guiada por priorización semántica que inserta con precisión los detalles de alta frecuencia bajo la guía de la información de baja frecuencia, aliviando eficazmente el problema de sesgo entre enfoques lejanos y cercanos en métodos tradicionales y mejorando significativamente el contraste y la retención de detalles de la imagen fusionada. En comparación con los métodos de investigación más recientes en los conjuntos de datos Lytro, COCO y MFFW y siete algoritmos avanzados de fusión de imágenes, el método propuesto logró ventajas significativas en varios indicadores, con aumentos de EN, PSNR, SSIM, MI, AG y SF de 2.7%, 13.6%, 7.9%, 6.5%, 1.6% y 3.7%, respectivamente. Además, se mejoró el rendimiento en las tareas posteriores de reconocimiento de pines de chips y localización del centro de chips, validando la practicidad y generalidad del algoritmo. El método propuesto muestra un rendimiento sobresaliente tanto en la calidad de fusión como en los resultados de tareas posteriores, con un buen potencial de aplicación para satisfacer las demandas de rapidez y precisión en la fusión de imágenes multifocal en tareas prácticas de detección.

关键词

fusión de imágenes multifocal; Transformer; mecanismo de atención multi-cabeza; reconocimiento de chips; detección de chips

阅读全文