earticle

논문검색

Oral Session Ⅱ 멀티미디어/의료

Vision Transformer를 활용한 RGB-D 영상 기반 시각 오도메트리

원문정보

Learning Visual Odometry from RGB Images with Vision Transformers

최진성, 홍충표

피인용수 : 0(자료제공 : 네이버학술정보)

초록

한국어

본 논문에서는 RGB 이미지 만을 이용하여 카메라의 자세를 추정할 수 있는 딥러닝 기반 시각 오 도메트리(Visual Odometry) 방법을 제안한다. 제안된 모델은 경량 합성곱 신경망(CNN)과 Vision Transformer(ViT)을 결합한 엔드 투 엔드 구조로, 연속적인 이미지 시퀀스의 시공간 정보를 효과적 으로 추출하고 프레임 간의 상대적인 6자유도(6-DoF) 자세 변화를 회귀한다. 7-Scenes 공개 데이터 셋을 통해 학습을 진행하였으며, Kinect DK 카메라로 수집한 RGB 이미지 시퀀스를 활용하여 실제 환경에서의 일반화 성능을 평가하였다. 실험 결과, 제안된 방법은 표준 장면과 실제 환경 모두에서 우수한 궤적 추정 정확도를 보여주었으며, 순수 RGB 영상만으로도 시각 오도메트리를 구현할 수 있음을 입증하였다.

목차

요약
1. 서론
2. 관련연구
3. 실험방법
3.1 모델 아키텍처
3.2 손실 함수 설계
3.3 학습 설정
4. 결론
Acknowledgement
참고문헌

저자정보

  • 최진성 Jinsheng Cui. 호서대학교 컴퓨터공학부
  • 홍충표 Chungpyo Hong. 호서대학교 컴퓨터공학부

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.