Para abordar el problema del deterioro de la capacidad de percepción en la conducción autónoma causado por cambios de iluminación e interferencias multimodales en escenarios de tráfico complejos, se propone una red de fusión de imágenes infrarrojas y visibles basada en una guía adaptativa de confiabilidad. El método construye un mecanismo de medición de confiabilidad a nivel de píxel, modelando conjuntamente la coherencia estructural y las anomalías de intensidad para evaluar dinámicamente la credibilidad de la fuente. A nivel global, emplea una estrategia de "inyección confiable" para corregir la distribución de intensidad, mientras que a nivel de detalles utiliza un filtrado guiado adaptativo para lograr un aumento competitivo de objetivos destacados y texturas, combinado con una función de pérdida multi-restricciones para una optimización colaborativa. Los resultados experimentales en los conjuntos de datos M3FD y RoadScene muestran que, en comparación con algoritmos populares como DWT, GTF, U2Fusion y Umcfuse, este método mejora en promedio la entropía de la información, la desviación estándar, la frecuencia espacial, el gradiente medio, la información mutua, la calidad de la fusión, la intensidad de los bordes y la fidelidad visual en un 1,51 %, 16,56 %, 42,36 %, 52,24 %, 38,28 %, 80,51 %, 21,4 % y 17,6 % respectivamente; la precisión promedio en tareas posteriores de detección de objetos alcanza el 91,4 %, superando otros métodos de fusión. El método suprime efectivamente los artefactos y el ruido, posee una excelente capacidad de generalización y estabilidad en diferentes escenarios, y mejora significativamente la precisión de la percepción ambiental en sistemas de conducción autónoma.
关键词
fusión de imágenes; infrarrojos y visible; guía adaptativa de confiabilidad; coherencia estructural multimodal; inyección confiable; percepción en conducción autónoma