A Transformer-based visual tracker via knowledge distillation

LI Na ,  

LIU Mengqiao ,  

PAN Jinting ,  

HUANG Kai ,  

JIA Xingxuan ,  

摘要

Ante el problema de la dificultad para lograr un seguimiento de alta precisión y alta velocidad para modelos profundos complejos en condiciones de recursos computacionales limitados, este texto presenta un interesante rastreador visual transformador basado en el conocimiento. Este rastreador visual puede hacer frente de manera efectiva a desafíos como el desplazamiento rápido del objetivo y el desenfoque del movimiento, mediante la introducción de un módulo de corrección dinámica de la imagen que fusiona la imagen correspondiente actual con la imagen predicha basada en el flujo de luz. Para reducir la complejidad del modelo, este texto adopta una estrategia de aprendizaje de compresión del conocimiento para comprimir el modelo, e incorpora la incertidumbre homocedástica en la función de pérdida, aprendiendo los pesos de pérdida para diferentes sub tareas, evitando así la tediosa y difícil ajuste manual de parámetros. Al mismo tiempo, en el proceso de entrenamiento, este texto también adopta una estrategia de desenfoque aleatorio para reforzar la robustez del modelo. Este texto propone dos marcos de seguimiento distintos: KTransT-T y KTransT, y los compara con 12 algoritmos en cinco conjuntos de datos públicos. Los resultados del experimento muestran que el algoritmo KTransT-T mejora de manera efectiva la precisión y la tasa de éxito del seguimiento, mientras que KTransT alcanza una precisión de seguimiento comparable a los algoritmos principales, con una velocidad de seguimiento de hasta 158 imágenes por segundo, cumpliendo así con las necesidades de seguimiento en tiempo real.

关键词

computer vision;object tracking;transformer;knowledge distillation;homoscedastic uncertainty

阅读全文