В данной статье предложена сеть удаления облаков, объединяющая изображения синтетической апертурной радиолокации (SAR) с оптическими изображениями в процессе слияния данных, который не может точно обрабатывать различия между облаками и фоном. На этапе извлечения признаков введен механизм внимания многократных масштабов, эффективно захватывающий глобальную и локальную информацию в изображении и обеспечивающий более репрезентативное представление информации о признаках для последующего слияния и удаления облаков. Переделаны локальный ветвь слияния и параллельная ветвь разности, достигнуто динамическое балансирование между ними через механизм ворот, полностью раскрывается их вклад и более детализируется контур облаков в оптическом облачном изображении, что позволяет восстановить более точное облачное оптическое изображение. Location-aware enhanced Swin Transformer плотно связывает локальные признаки, обеспечивая модели сети лучшую робастность в сложных средах. Предложенный алгоритм превосходит другие алгоритмы в задаче удаления облаков на изображениях по отношению сигнал-шум (PSNR) и структурном сходстве (SSIM) на 0.833 1 дБ и 0.024 6 соответственно. Предложенный алгоритм в данной статье продемонстрировал лучшую производительность по сравнению с другими алгоритмами.