삼분기 네트워크 기반 실시간 이미지 의미 분할

REN Fenglei ,  

GAO Ziyang ,  

ZHANG Yan ,  

ZHOU Haibo ,  

YANG Lu ,  

QIN Zhichang ,  

摘要

자동주행 환경 인지 등 응용 분야에서 알고리즘의 정확도와 실시간성에 대한 엄격한 요구사항을 고려하여, 의미적 분할 모델의 정확도와 추론 속도를 효과적으로 균형 맞추기 위해 삼분기 네트워크 기반 실시간 이미지 의미 분할 알고리즘을 제안한다. PIDNet 알고리즘에서 영감을 받은 삼분기 네트워크 구조를 설계하여 각각 이미지의 세부 정보, 의미적 맥락 정보, 경계 정보를 추출한다. 의미 분기에서는 다양한 스케일의 맥락 정보를 획득하고 네트워크 특징 수용 영역을 확장하기 위해 효율적인 피라미드 풀링 모듈을 설계하였다. 세부 분기와 경계 분기에서는 추출된 특징을 강화하기 위해 경량화되고 효율적인 다중 스케일 채널 상호작용 주의 모듈을 설계하였다. 마지막으로 상기 세 분기에서 추출한 이미지 특징을 융합하여 최종 의미 분할 결과를 출력한다. 실험 결과 제안된 삼분기 네트워크 기반 실시간 이미지 의미 분할 알고리즘은 Cityscapes 데이터셋에서 79.2% mIoU 및 88.5 프레임/초, CamVid 데이터셋에서 80.5% mIoU 및 140.1 프레임/초의 실시간 의미 분할 성능을 달성하였다. 본 논문에서 제안한 알고리즘은 이미지 의미 분할 작업을 효율적으로 수행할 수 있으며, 실시간성과 정확성 모두에서 탁월한 균형을 이루었고, 의미 분할 성능은 기존 기준 방법보다 현저히 우수하다.

关键词

의미 분할;딥 러닝;실시간성;주의 메커니즘;다중 스케일 특징

阅读全文