기존의 비전 트랜스포머(Vision Transformer, ViT)를 기반으로 한 이미지 수준 약지도 학습 약한 감독 약한 감독 시맨틱 세그먼테이션 방법들은 주로 자기 주의 메커니즘에 의존하여 제한된 시맨틱 정보를 추출하며, 다차원 특성 관계를 충분히 활용하지 못해 목표 영역 인식이 다소 거칠다. 이를 위해 시공간 대비 학습(Spatio-temporal Contrastive Learning, STCL)에 기반한 약지도 이미지 시맨틱 세그먼테이션 네트워크를 제안하며, 시간과 공간 관점에서 감독 정보를 발굴하여 분할 정확도를 향상시키는 것을 목표로 한다. ViT의 토큰 메커니즘을 통해 공간 특징 대비 학습 모듈을 도입하였으며, 패치 수준 토큰과 클래스 수준 토큰 대비 전략을 결합하여 이미지 공간 내에 내재된 시맨틱 특징 관계를 심도 있게 탐구한다; 시간 문맥 대비 학습 모듈을 설계하여 메모리 뱅크를 구축하고 과거 이미지 분할의 선행 지식을 활용해 현재 시맨틱 분할 작업을 안내하며, 메모리 뱅크 업데이트 전략과 적응형 메모리 대비 손실을 구축하여 모델의 세부 영역 인식 능력을 더욱 향상시킨다. 실험 결과 PASCAL VOC와 MS COCO 데이터셋에서 평균 교집합률(mIoU)이 각각 72.7%와 43.6%에 달해 제안된 방법의 우수성을 입증하였다.