معالجة لمشكلة عدم وجود تحوير مقياس في تمثيل الصور النصية الموجودة حاليًا، وقلة الدقة التي تجعل من الصعب على المعالج استخراج معلومات النص الصحيحة لتوجيه شبكة إعادة البناء، يقترح هذا البحث طريقة إعادة بناء الصور النصية بدقة فائقة متعددة الأوضاع للتفاعل الدلالي. باستخدام قناع الانتباه في وحدة استنتاج الدلالة على تصحيح معلومات محتوى النص، والحصول على معلومات دلالية مسبقة، مقيدة والتوجيه الشبكة إعادة بناء النص بدقة فائقة بشكل صحيح. لتعزيز قدرة الشبكة على التمثيل، والتكيف مع الصور النصية ذات الأشكال والأطوال المختلفة، تم تصميم كتلة التفاعل الدلالي متعددة الأوضاع، حيث تتكون وحدتها الأساسية من كتلة الاندماج البصري ثنائي التدفق، وكتلة الدمج عبر الوضع الذاتي، ووحدة الدورة المقترنة المقننة ذات الاتجاهين عموديًا وأفقيًا. يستفيد كتلة الاندماج البصري ثنائي التدفق من سمات الإحصاء العالمية وقدرة الملاءمة المحلية المتكملة، ويحصل على معلومات بصرية متعددة الحبيبات تحتوي على فهم السياق. تقوم كتلة الدمج عبر الوضع الذاتي بتنفيذ ديناميكية للتفاعل بين معلومات الدلالة وسمات البصر المتعددة الحبيبات، وتقلل من الاختلافات بين الأوضاع؛ وأخيرًا، تقوم وحدة الدورة المقترنة المقننة ذات الاتجاهين بإنشاء سمات متعددة الأوضاع باتجاهين عمودي وأفقي. تشير نتائج التجارب إلى أن الطريقة التي تم اقتراحها في هذا البحث قد حسنت من معايير PSNR و SSIM لتجربة TextZoom بالمقارنة مع الطرق الشائعة الأخرى، وزادت الدقة المتوسطة في الطرق الثلاثة للتعرف ASTER، MORAN، CRNN بمقدار 2.9%، 3.6%، و 3.7% على التوالي مقارنة بنموذج TPGSR. وفي هذا السياق، توضح هذه النتائج أن إعادة بناء الصور النصية بدقة فائقة متعددة الأوضاع بالتفاعل الدلالي يمكن أن تزيد بشكل فعال من دقة التعرف على النص.
关键词
إعادة بناء بدقة فائقة; صورة نصية; حبيبات متعددة; معلومة دلالية مسبقة; متعدد الأوضاع