Face aux méthodes actuelles qui manquent de transformations d'échelle dans la représentation des caractéristiques d'images textuelles, ainsi que d'une résolution insuffisante qui rend difficile l'extraction correcte des informations textuelles guidant le réseau de reconstruction, cet article propose une méthode de reconstruction de super-résolution multimodale et interactive sémantiquement pour les images textuelles. Il utilise un masque d'attention dans le module d'inférence sémantique pour corriger les informations sur le contenu textuel et obtenir des informations sémantiques a priori, contraignant et guidant la reconstruction du réseau de super-résolution d'images textuelles correctement sémantiques. Pour renforcer la capacité de représentation du réseau et s'adapter à différentes formes et longueurs d'images textuelles, un bloc d'interaction sémantique multimodale a été conçu, dont l'unité de base est composée de blocs d'intégration visuelle à double flux, de blocs de fusion adaptatifs intermodaux et d'unités récurrentes bidirectionnelles orthogonales. Le bloc d'intégration visuelle à double flux utilise des caractéristiques statistiques globales et une capacité d'ajustement local pour obtenir des informations visuelles multigranulaires comprenant une compréhension contextuelle, les blocs de fusion adaptatifs intermodaux exécutent dynamiquement l'interaction entre les informations sémantiques et les caractéristiques visuelles multigranulaires, réduisant les différences modales; enfin, l'unité récurrente bidirectionnelle orthogonale établit des caractéristiques multimodales dans les directions verticale et horizontale de la dépendance textuelle. Les résultats des expériences montrent que la méthode proposée dans cet article améliore les critères de PSNR et de SSIM sur l'ensemble de test TextZoom par rapport à d'autres méthodes courantes, et améliore également la précision moyenne de reconnaissance pour trois méthodes de reconnaissance ASTER, MORAN, CRNN de 2,9 %, 3,6 % et 3,7 % respectivement par rapport au modèle TPGSR. Il ressort de ces résultats que la reconstruction de super-résolution d'images textuelles avec une interaction sémantique multimodale peut améliorer efficacement la précision de reconnaissance des textes.
关键词
Reconstruction de super-résolution; image textuelle; multigranularité; a priori sémantique; multimodal