원문정보
Global and Spatio-Temporal Transformer for Monocular 3D Pose Estimation
초록
한국어
최근 3D 자세 추정 연구는 BERT 기반 혹은 트랜스포머 기반 접근 방식으로 진행되고 있다. 해당 방식들은 관절의 시공간적 관계성을 인코딩하여 전체적인 혹은 지역적인 관절 맥락을 파악한다. 현재 단안 방식의 3D 자세 추정 모델의 최고는 MotionBERT로 해당 모델의 인코더인 Dual-stream Spatio-temporal Transoformer는 입력 받은 동영상 데이터의 하나의 프레임에서 관절 간의 관계성을 공간적 블록으로 Multi-Head Self Attention을 적용하고 또 전체 프레임에서 하나의 관절의 시간적인 관계성을 시간적 블록으로 Multi-Head Self Attention을 적용하여 두 블록을 융합하여 모션 인코딩을 진행한다. 그러나 이런 인코딩 방식은 전체 프레임에서 모든 관절의 관계성, 즉 글로벌한 특징을 부각 하지 못하는 단점이 있다. 따라서 본 논문에서는 Dual-stream Spatio-temporal Transoformer의 한계점 을 개선한 Global and Spatio-temporal Transformer를 제안한다. 실험은 3D 자세 추정 연구에서 흔히 사용하는 Human3.6M 데이터셋을 사용하여 GSTformer와 DSTformer의 처음부터 학습한 성능과 파인 튜닝한 성능을 비교한다.
목차
1. 서론
2. 관련 연구
2.1. 3D 자세 추정
3. 실험방법
3.1. 데이터셋
3.2 네트워크 아키텍처
3.3 파인튜닝
4. 실험결과
5. 결과
Acknowledgement
참고문헌
