원문정보
피인용수 : 0건 (자료제공 : 네이버학술정보)
초록
한국어
2024년 기준 전 세계 인터넷 사용자 중 92%가 매월 온라인 비디오를 시청하며, 주간 평균 시청 시간은 17시간에 달한다. 이처럼 영상 콘텐츠의 양이 기하급수적으로 증가하면서, 정보 과잉 속에서 핵심 내용을 빠르게 파악하기 어려워지고 있다. 이에 따라 영상 요약 기술의 필요성이 더욱 강조되고 있다. 기존 영상 요약 기법은 주로 프레임 단위 중요도 예측에 집중하지만, 영상의 시간적 구조나 의미 있는 사건을 충분히 반영하지 못하는 한계가 있다. 실제 영상은 프레임(frame), 샷(shot), 장면(scene), 시퀀스(sequence)로 이어지는 복합적 서사 구조를 가지므로, 시간적 흐름이나 사적 구조를 가지며, 이 구조를 고려한 요약은 중복을 줄이고 맥락을 보존하는데 중요하다. 본 연구는 샷과 장면 경계, 멀티모달 이벤트를 탐지하고 어텐션 기반으로 서사 흐름을 반영하는 장면 인지 기반 요약 프레임워크를 제안한다.
목차
Abstract
Introduction
Related Work
영상 요약
멀티모달 영상 요약
샷 및 장면 분할
트랜스포머 기반 영상 요약 기법
Proposed Method
Experiments and Results
Conclusion
References
Introduction
Related Work
영상 요약
멀티모달 영상 요약
샷 및 장면 분할
트랜스포머 기반 영상 요약 기법
Proposed Method
Experiments and Results
Conclusion
References
저자정보
참고문헌
자료제공 : 네이버학술정보
