원문정보
A modality stabilization training strategy for multimodal-based semantic segmentation models robust to modality corruption
초록
영어
In autonomous vehicles, multimodal-based semantic segmentation is a basic function for recognizing driving area and avoiding obstacles even in limited environments such as low light condition and blurry light. To achieve this, the proposed existing multimodal-based semantic segmentation models recognize the scene using RGB images from visible cameras and thermal images from thermal cameras. However, the existing models assume that the images captured from the two different modalities are not corrupted in any case. In this paper, we found that even the state-of-the-art multi-modal based semantic segmentation models fail to maintain single modality performance in strong modality corruption, such as modality occlusion. Furthermore, we propose single modality stabilization learning in preparation for missing modality to solve this problem. Our experimental results show that the proposed method achieves a performance improvement of up to 8.9 mIoU compared to the baseline model even under extreme modality-damaging conditions.
한국어
자율 주행 차량에서 멀티모달 기반 의미론적 세분화 작업은 저조도 및 빛 번짐과 같은 제한적인 환경에서도 주행로 를 인식하고 장애물을 회피하기 위한 기본 기능이다. 이를 위해 제안된 기존의 멀티모달 기반 의미론적 세분화 모델 들은 장면 인식을 위해 가시 카메라의 RGB 영상과 열화상 카메라의 Thermal 영상을 사용하여 장면을 인식한다. 그러나 기존의 모델들은 서로 다른 두 모달리티에서 입력되는 영상이 어떠한 경우에도 훼손되지 않는다는 것을 가정 한다. 본 논문에서 우리는 최첨단 멀티모달 기반 의미론적 세분화 모델 조차 모달리티 가려짐과 같은 강력한 모달리 티 훼손 조건에서 단일 모달리티 성능을 유지하지 못하고 극도의 성능 저하에 직면하는 것을 발견한다. 더 나아가, 우리는 해당 문제를 해결하기 위해 모달리티 누락을 대비한 단일 모달리티 안정화 학습을 제안한다. 실험 결과 제안 된 방법은 극도의 모달리티 훼손 조건에서도 기준선 모델에 비해 최대 8.9 mIoU의 성능 향상을 달성한다.
목차
Abstract
1. 서론
2. 관련 연구
2.1. 단일 모달리티 기반의 의미론적 세분화 모델 및 방법
2.2. 멀티모달 기반의 의미론적 세분화 모델 및 방법
3. 연구 방법
3.1. 멀티모달 기반 의미론적 세분화 작업
3.2. 모달리티 훼손으로 인한 성능 저하 문제
3.3. 모달리티 안정화 학습 전략
4. 실험 결과
4.1. 실험 데이터 세트
4.2. 자세한 실험 환경 구성
4.3. 제안하는 모달리티 안정화 학습 전략의 유효성
5. 결론
Acknowledgement
참고문헌
