원문정보
Human-Centric Depth Estimation System Using Limited Training Data in CCTV Environments
초록
영어
Conventional human-centric distance estimation methods typically require large-scale training datasets, leading to substantial time investments in data collection and training while suffering from degraded performance when only limited data are available. In this study, we propose a humancentric distance estimation system for CCTV environments that achieves notable performance even with a small amount of training data. By minimizing unnecessary labeling processes and reducing training time, the proposed system can be quickly deployed and efficiently extracts distance information. To this end, we combine an object instance segmentation (or object detection) algorithm with a depth estimation algorithm to effectively predict the horizontal distance from the CCTV to a person. As a result, the system achieved a 1.455 MAE result when using GT bounding boxes with only 30 training images, and in practical usage environments using object detection models, it achieved a 2.331 MAE result, indicating its potential to serve as a critical technological foundation for real-world applications such as smart cities.
한국어
기존의 사람 중심 거리 추정 연구는 대규모 학습 데이터를 필요로 하여 데이터 수집 및 학습에 많은 시간이 소요되 며, 제한된 학습 데이터셋에서는 성능이 저하되는 경향이 있다. 본 연구에서는 CCTV 환경에서 제한된 학습 데이터 로도 유의미한 성능을 발휘하는 사람 중심 거리 추정 시스템을 제안한다. 이 시스템은 불필요한 라벨링 과정을 최소 화하고 짧은 학습 시간으로 신속하게 구축할 수 있으며, 효율적인 거리 정보 추출이 가능하다. 이를 위해 객체 인스 턴스 분할 알고리즘(또는 객체 탐지 알고리즘)과 깊이 추정 알고리즘을 결합하여 CCTV로부터 사람까지의 수평 거 리를 효과적으로 예측한다. 결론적으로, 본 시스템은 단 30장의 적은 학습 데이터만으로 GT 바운딩 박스 사용시 1.455 MAE 및 8.196% MAPE 결과를 달성했으며, 실사용 환경을 객체 탐지 모델을 사용한 결과 결과 2.331 MAE 및 11.895% MAPE를 달성하였으며, 향후 스마트 시티와 같은 실제 응용 분야에서 중요한 기술적 기반을 제공할 것으로 기대된다.
목차
Abstract
1. 서론
2. 관련 연구
3. 제안 방법
4. 실험
4.1 데이터셋
4.2 실험 결과
5. 결론
Acknowledgements
참고문헌
