원문정보
A novel 3D-Convolution Neural Network for Human Interaction Recognition in videos
초록
영어
Human Interaction Recognition(HIR) has already been perceived rapid progress same as human action and activity recognition. In HIR, we intend to highlight the problem of human-to-human interaction recognition in videos by exploring the long term inter-related dynamics between multiple humans. In order to understand the human-to-human interaction precisely, HIR system requires a robust feature extraction and selection method based on videos. In this paper, we propose a novel 3D convolutional neural network(3D CNN) followed by a fully connected block, to wisely trace human to human interactions in videos. We feed our proposed model with 15 sequence of video frames to our novel 3D CNN architecture which extracts deep features from all the sequences and then pass those sequences to the fully connected block to boost our efficiency. Our proposed network outperformed the existing state-of-the-art methods by accomplishing extraordinary recognition accuracy on two benchmark datasets, UT-I and TV Human Interaction dataset i.e., 84% and 74% overall and improved from the state-of-the-art techniques. Our proposed network can also be applicable to other numerous multimedia contents and security applications such as video-based learning, service combats, medical futurists, interactive gaming, and surveillance systems.
한국어
인간 상호 작용 인식(HIR)은 이미 인간의 행동 및 활동 인식과 동일하게 급속도로 발전하고 있다. HIR에서 우리는 여러 인간 간의 장기적인 상호 관련된 동력을 탐구하여 비디오에서 인간과 인간의 상호 작용 인식 문제를 강조하고 자 한다. HIR 시스템은 인간과 인간의 상호 작용을 정확하게 이해하기 위해서는 동영상을 기반으로 한 강력한 특징 추출 및 선택 방법이 필요하다. 이 논문에서는 비디오에서 인간과 인간의 상호 작용을 현명하게 추적하기 위해 완전 히 연결된 블록에 이어 새로운 3D 컨볼루션 신경망(3D CNN)을 제안한다. 우리는 제안된 15개의 비디오 프레임 시퀀스를 새로운 3D CNN 아키텍처에 공급하여 모든 시퀀스에서 심층 특징을 추출한 다음 해당 시퀀스를 완전히 연결된 블록으로 전달하여 효율성을 높인다. 우리가 제안한 네트워크는 두 개의 벤치마크 데이터 셋인 UT-I와 TV Human Interaction 데이터 셋에서 전체적으로 84% 와 74%의 탁월한 인식 정확도를 달성하고 최신기술을 개선 함으로써 기존 최첨단 방식을 능가하였다. 우리가 제안한 네트워크는 비디오 기반 학습, 서비스 전투, 의료 미래학 자, 대화형 게임 및 감시 시스템과 같은 다양한멀티미디어 콘텐츠 및 보안 응용 프로그램에도 적용할 수 있다.
목차
Abstract
1. Introduction
2. Proposed Method
2.1 3D Convolutional Neural Network:
2.2 Fully Connected Block
3 Experimental Results
3.1 UT-I Dataset
3.2 TV-Human Interaction Dataset
3.3 Implementation
3.4 Comparison with State-of-the-art
4. Conclusions and Future Work
Acknowledgments
References
