A Transformer-based visual tracker via knowledge distillation

LI Na ,  

LIU Mengqiao ,  

PAN Jinting ,  

HUANG Kai ,  

JIA Xingxuan ,  

摘要

Angesichts des Problems der Schwierigkeit, bei begrenzten Rechenressourcen eine präzise und schnelle Verfolgung komplexer tiefer Modelle zu erreichen, präsentiert dieser Text einen interessanten auf Wissen basierenden visuellen Transformer-Tracker. Dieser visuelle Tracker kann Herausforderungen wie schnelle Bewegung des Ziels und Bewegungsunschärfe effektiv bewältigen, indem ein dynamisches Bildkorrekturmodul eingeführt wird, das das aktuelle korrespondierende Bild mit dem auf dem Lichtstrom basierenden prognostizierten Bild dynamisch verschmilzt. Um die Modellkomplexität zu reduzieren, verwendet dieser Text eine Wissenskomprimierungs-Lernstrategie zur Modellkomprimierung und integriert die Homoskedastische Unsicherheit in die Verlustfunktion, indem er Gewichte für verschiedene Teilaufgaben lernt und so mühsame und schwierige manuelle Parameteranpassungen vermeidet. Gleichzeitig setzt dieser Text im Schulungsprozess auch eine zufällige Unschärfe-Strategie ein, um die Robustheit des Modells zu stärken. Dieser Text schlägt zwei verschiedene Verfolgungsrahmen vor: KTransT-T und KTransT, und vergleicht sie mit 12 Algorithmen in fünf öffentlichen Datensätzen. Die Experimente zeigen, dass der Algorithmus KTransT-T die Verfolgungsgenauigkeit und Erfolgsquote wirksam verbessert, während KTransT eine vergleichbare Verfolgungsgenauigkeit wie führende Algorithmen erreicht und eine Verfolgungsgeschwindigkeit von bis zu 158 Bildern pro Sekunde ermöglicht, um den Anforderungen an Echtzeitverfolgung gerecht zu werden.

关键词

computer vision;object tracking;transformer;knowledge distillation;homoscedastic uncertainty

阅读全文