Para abordar los problemas de los algoritmos actuales de detección de anomalías industriales, como la baja precisión en la detección de defectos de pequeño tamaño, la débil capacidad de extracción de características a múltiples escalas y la baja precisión en la segmentación de anomalías, se propone una red de detección de anomalías industriales que combina la guía de residuos de alta frecuencia y la fusión de características de atención multiescala. Primero, para el problema de la pérdida de detalles de alta frecuencia causada por el procesamiento tradicional de todas las frecuencias, se diseñó una estrategia de separación en el dominio de frecuencia, utilizando un filtro de núcleo gaussiano para extraer características residuales de alta frecuencia, fortaleciendo la capacidad de la red para detectar anomalías pequeñas; segundo, ante la insuficiente capacidad de las redes convolucionales convencionales para representar texturas complejas y la baja diferenciación entre anomalías y fondo, se incorporó un módulo de atención multiescala mejorado globalmente GEMA en la fase de codificación de la red discriminadora, capturando en paralelo vías duales la información local multiescala en direcciones horizontal y vertical, fortaleciendo características destacadas en diferentes posiciones espaciales y mejorando la discriminación de características en fondos texturizados complejos; finalmente, en la fase de decodificación de la red discriminadora se integró un módulo de atención coordenada CoordAtt, que mediante la descomposición del eje de coordenadas modula dinámicamente el peso de las características, logrando una localización espacial precisa de las áreas anómalas. Los experimentos muestran que en el conjunto de datos público MVTec AD, el modelo mejorado alcanza un AUROC promedio a nivel de imagen de 98.6%, y promedios de AUROC y AP a nivel de píxel de 97.6% y 73.2%, respectivamente, mejorando eficazmente la efectividad de la detección de anomalías industriales.
关键词
Detección de anomalías industriales; guía de componentes de alta frecuencia; percepción espacial multiescala; mecanismo de atención