В свете существующих методов, которые отсутствует масштабное преобразование изображений текста, недостаточное разрешение, что затрудняет выделение правильной информации о содержании текста, руководящей проблемы восстановления, предлагается метод восстановления суперразрешения много модальной семантической взаимодействия текста изображений. Используется маска внимания в блоке семантического заключения для коррекции информации о содержании текста и получения семантической априорной информации, ограничивающей и направляющей восстановление изображений текстов с правильной семантикой суперразрешения сети. Для усиления представления сети, а также адаптации к различным формам и длинам изображений текста, разработано блок взаимодействия много модальной семантики, основная единица которого состоит из блока визуальной двухпоточной интеграции, блока адаптивного слияния между режимами и ортогональной двухсторонней блокирующей рекуррентной единицы. Блок визуальной двухпоточной интеграции использует глобальные статистические характеристики и способность локальной подгонки, чтобы получить многогранную визуальную информацию, содержащую понимание контекста, блок адаптивного слияния между режимами динамически выполняет взаимодействие семантической информации и многогранной визуальной информации, уменьшая различия между режимами; наконец, ортогональная двухсторонняя блокирующая рекуррентная единица устанавливает многомодальные характеристики в вертикальном и горизонтальном направлениях текстовой зависимости. Результаты экспериментов показывают, что предложенный в этом документе метод на тестовом наборе TextZoom по сравнению с другими основными методами повышает качество восстановления текста на показатели PSNR и SSIM, а также улучшает среднюю точность распознавания для трех методов распознавания ASTER, MORAN, CRNN на 2.9%, 3.6% и 3.7% соответственно по сравнению с моделью TPGSR. Это свидетельствует о том, что метод восстановления суперразрешения изображений текста с много модальным семантическим взаимодействием может эффективно повысить точность распознавания текста.
关键词
Восстановление суперразрешения; текстовая графика; множество ногородия; семантическая априори; много модальный