원문정보
Dynamic Mixture-of-Experts Gating for RGB-T Visual Object Tracking
초록
영어
We present BATMoE, a modality-aware RGB–T visual object tracker that integrates dense Mixtureof- Experts (MoE) gating into a dual-stream baseline tracker, BAT. The proposed approach applies MoE structures to both the attention projection layers (Q/K/V) and the feed-forward networks within the Transformer encoder. A temperature-controlled softmax gate, conditioned on pooled cross-modal features, densely combines all experts, while a balancing regularization term is introduced to prevent biased expert utilization. This design allows the tracker to dynamically emphasize the more reliable modality under adverse conditions, such as thermal crossover or low illumination, while preserving complementary information from the other modality. Experimental results on the LaSHeR dataset demonstrate that BATMoE consistently outperforms the baseline BAT under identical training and evaluation settings, achieving improvements in both Precision@20 and Success (AUC). Attribute-wise analysis reveals particularly notable gains in conditions where modality reliability varies significantly, including Thermal Crossover, Low Illumination, and Partial Occlusion. In contrast, performance improvements are limited under Fast Motion and Motion Blur scenarios, where both RGB and TIR modalities tend to degrade simultaneously. These results indicate that MoE-based condition-adaptive modeling provides an effective fusion mechanism for RGB–T visual object tracking.
한국어
RGB-T 시각적 객체 추적은 가시광(RGB) 영상과 열적외선(TIR)을 병행해 조명·기상 변화 속에서도 대상을 지속 적으로 추적하는 기술이다. 본 연구에서는 이중 스트림 RGB-T 기반 추적기인 BAT에 밀집 Mixture-of- Experts(MoE) 게이팅을 결합한 모달리티 인지 추적기 BATMoE를 제안한다. 제안한 방법은 어텐션 투영 단계의 Q/K/V와 피드포워드 네트워크(FFN)에 MoE 구조를 적용한다. 풀링된 교차 모달 특징에 조건화된 온도 조절 softmax 게이트를 통해 모든 전문가를 밀집하게 혼합하며, 전문가 활용의 편향을 방지하기 위해 균형 정규화 항을 추가하였다. 이러한 설계는 열 교차 현상(Thermal Crossover)이나 저조도 환경과 같은 불리한 조건에서 더 신뢰 도 높은 모달리티의 기여도를 동적으로 강화하면서도, 다른 모달리티의 보완적 정보를 유지할 수 있도록 한다. LaSHeR 데이터 세트에서 수행한 실험 결과, BATMoE는 동일한 학습 및 평가 설정 하에서 기존 BAT 대비 Precision@20과 Success(AUC) 지표 모두에서 일관된 성능 향상을 보였다. 특히 Thermal Crossover, Low Illumination, Partial Occlusion과 같이 모달리티 간 신뢰도 차이가 크게 발생하는 조건에서 성능 개선이 두드 러졌으며, 속성별 분석을 통해 이러한 경향을 확인하였다. 반면 Fast Motion이나 Motion Blur와 같이 RGB와 TIR 모달리티가 동시에 약화하는 조건에서는 성능 향상이 제한적으로 나타났다. 이러한 결과는 MoE 기반 조건 적 응적 구조가 RGB-T 시각적 객체 추적에서 효과적인 융합 메커니즘이 될 수 있음을 보여준다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 시각적 객체 추적
2.2 Mixture-of-Experts
3. 본문
3.1 토큰화 및 정규화
3.2 트랜스포머 내 MoE 통합
4. 실험 결과
4.1 실험 환경
4.2 LaSHeR 데이터 세트 기반 성능 평가 지표
4.3 속성 기반 성능 분석
4.4 MoE 게이팅 동작 및 모달리티 적응성 분석
4.5 모델 복잡도 및 효율성 분석
4.6 전문가 수에 따른 성능 분석
5. 결론
Acknowledgements
참고문헌
