원문정보
Random masking and weight sharing techniques in multimodal semantic segmentation
초록
영어
Utilizing the multi-modality of RGB and thermal images is valuable in various situations where visibility is reduced due to bad weather, fog, or lighting conditions. In previous semantic segmentation work, high recognition performance has been achieved by combining features extracted from RGB images with features from thermal images, but the performance is limited because the output features are combined without considering the model weights according to the characteristics of the modalities. In this paper, we configure the networks to have common weights during the learning process of RGB and Thermal images, and configure the modality features with more information to lead the other modalities in the loss calculation step. We also configure complementary masking modules and residual networks to achieve a performance improvement of 12.25 on the FMB dataset.
한국어
RGB 영상과 Thermal 영상의 다중 모달리티의 활용은 악천후나 안개, 조명 환경 등으로 가시성이 저하되는 다양 한 상황에서 그 가치를 발휘한다. 이전 의미론적 분할 작업에서 RGB 영상에서 추출된 특징을 Thermal 영상의 특 징과 결합하는 방식으로 높은 인지 성능을 달성했지만, 모달리티의 특성에 따른 모델 가중치는 고려하지 않고 출력 된 특징을 결합했기 때문에 제한적인 성능을 보인다. 본 논문에서는 RGB 영상과 Thermal 영상을 학습하는 과정 에서 네트워크가 공통적인 가중치를 갖도록 구성하고, 손실 계산 단계에서 더 많은 정보를 가진 모달리티 특징이 다 른 모달리티를 이끌도록 구성하였다. 또한 상호보완적인 마스킹 모듈과 잔차 네트워크를 구성하여 FMB[1] 데이터 세트에서 12.25의 성능 향상을 이뤘다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 다중 모달리티 의미론적 분할 연구
2.2 의미론적 분할 모델 및 방법
2.3 무작위 마스킹 기법
3. 제안 방법
3.1 모달리티 중립적인 가중치 학습
3.2 상호보완적인 무작위 마스킹 기법
3.3 다중 모달리티 손실 최적화
3.4 잔차 네트워크
4. 실험
4.1 실험 데이터 세트
4.2 실험 환경 구성
4.3 제안하는 방법론의 유효성
4.4 다중 모달리티 벤치마크 데이터 세트 실험
5. 결론
Acknowledgements