earticle

논문검색

멀티모달 정보와 계층 구조를 반영한 장면 인지 기반의 영상 요약

초록

한국어

2024년 기준 전 세계 인터넷 사용자 중 92%가 매월 온라인 비디오를 시청하며, 주간 평균 시청 시간은 17시간에 달한다. 이처럼 영상 콘텐츠의 양이 기하급수적으로 증가하면서, 정보 과잉 속에서 핵심 내용을 빠르게 파악하기 어려워지고 있다. 이에 따라 영상 요약 기술의 필요성이 더욱 강조되고 있다. 기존 영상 요약 기법은 주로 프레임 단위 중요도 예측에 집중하지만, 영상의 시간적 구조나 의미 있는 사건을 충분히 반영하지 못하는 한계가 있다. 실제 영상은 프레임(frame), 샷(shot), 장면(scene), 시퀀스(sequence)로 이어지는 복합적 서사 구조를 가지므로, 시간적 흐름이나 사적 구조를 가지며, 이 구조를 고려한 요약은 중복을 줄이고 맥락을 보존하는데 중요하다. 본 연구는 샷과 장면 경계, 멀티모달 이벤트를 탐지하고 어텐션 기반으로 서사 흐름을 반영하는 장면 인지 기반 요약 프레임워크를 제안한다.

목차

Abstract
Introduction
Related Work
영상 요약
멀티모달 영상 요약
샷 및 장면 분할
트랜스포머 기반 영상 요약 기법
Proposed Method
Experiments and Results
Conclusion
References

저자정보

  • 이앞길 국립한밭대학교 일반대학원 경영학과 박사과정
  • 최근호 국립한밭대학교 융합경영학과 부교수
  • 김건우 국립한밭대학교 융합경영학과 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.
      ※ 학술발표대회집, 워크숍 자료집 중 4페이지 이내 논문은 '요약'만 제공되는 경우가 있으니, 구매 전에 간행물명, 페이지 수 확인 부탁 드립니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.