Исследование и применение слияния многофокусных изображений на основе архитектуры CNN и Transformer

WANG Yuxuan ,  

XIA Zhenping ,  

LUO Ge ,  

CHENG Cheng ,  

摘要

Для решения проблемы невозможности одиночного фокусированного изображения одновременно отображать полную информацию о сцене, в данной статье предлагается сквозной алгоритм слияния многофокусных изображений для повышения точности и практичности слияния изображений. На этапе кодирования построен кодер с параллельной структурой, объединяющей плотные свёрточные нейронные сети (CNN) и Transformer, для эффективного извлечения высокочастотных и низкочастотных признаков изображения, введён пространственный механизм внимания для усиления выражения признаков. В этапе слияния разработана стратегия перекрестного слияния с руководством семантических приоритетов, которая точно внедряет высокочастотные детали на основе руководства низкочастотной информацией, эффективно снижая проблему смещения между дальним и ближним фокусом в традиционных методах, значительно повышая контраст и сохранение деталей слиянного изображения. По сравнению с последними методами на наборах данных Lytro, COCO и MFFW и семью передовыми алгоритмами слияния изображений, предложенный метод достиг значительных преимуществ по нескольким показателям: EN, PSNR, SSIM, MI, AG и SF увеличились на 2.7%, 13.6%, 7.9%, 6.5%, 1.6% и 3.7% соответственно. Кроме того, улучшена производительность в задачах распознавания контактов микросхем и определения центра микросхемы, что подтверждает практичность и универсальность алгоритма. Метод данной статьи демонстрирует отличные результаты по качеству слияния и эффективности в последующих задачах, обладая хорошим потенциалом применения для удовлетворения требований к быстродействию и точности многофокусного слияния изображений в практических задачах обнаружения.

关键词

многофокусное слияние изображений; Transformer; механизм многоголового внимания; распознавание микросхем; обнаружение микросхем

阅读全文