earticle

논문검색

Special Session C-4

품사 Attention 기반 이미지 캡셔닝 모델에 관한 연구

원문정보

A Study on Part-Of-Speech Attention-based Image Captioning Model

배주원, 정성범, 서동환

피인용수 : 0(자료제공 : 네이버학술정보)

초록

한국어

이미지 캡셔닝 분야는 컴퓨터가 이미지의 내용을 자연어 문장으로 서술하는 기술이다. 이미지 캡셔닝은 영상 데이 터를 다른 범주의 데이터인 자연어로 변환한다는 점에서, 영상과 자연어 두 데이터에 대한 높은 이해도가 필수적인 도 전적인 기술이다. 따라서 이미지 캡셔닝 기술을 잘 활용하면 영상 감시, 추적, 상황 판단 등과 같은 영상 데이터를 사 용해 상황을 판단하는 분야에서 기여할 수 있다. 딥러닝의 발전 이후 자연어처리와 컴퓨터 비전 모델의 성능이 크게 향상되면서 이미지 캡셔닝의 성능 또한 비약적 으로 높아졌다. 특히, 인코더로 이미지 정보를 추출하고, 자연어 정보와 결합하여 문장을 생성하는 디코더를 사용하는 인코더-디코더 구조의 접근법을 사용하고 있다. 인코더-디코더 구조는 이미지와 문장 정보를 결합해 정확한 캡션을 생성할 수 있고 End-To-End로 학습이 가능하다는 장점이 있지만 디코더를 통해 캡션을 생성할 때 캡션 데이터의 정 보 손실이 크다는 단점이 있다. 이는 디코더로 사용하는 Recurrent Neural Network(RNN) 모델의 한계로, 단어를 예 측하는 각 시점의 정보를 입력으로 하는데 생성되는 캡션의 길이가 길어질수록 이전 시점들의 예측 단어에 대한 정보 가 감소하게 되어 소실될 수 있다는 것이다. 이러한 문제를 해결하기 위해 자연어처리 분야에서 활발히 연구되고 있는 어텐션(Attention) 메커니즘 기반의 방법들을 적용한 이미지 캡셔닝 방법들이 제안되었다. 어텐션 메커니즘은 디코더에 서 캡션 단어를 예측하는 매 시점에서 다른 시점들의 중요한 특징 정보에 집중할 수 있게 한다. 따라서, 최근의 이미 지 캡셔닝은 캡션 예측 시 특정 이미지 영역에 집중하거나 이전 캡션들의 정보에 집중하여 정확한 캡션을 생성하는 방법에 대한 연구가 꾸준히 진행되고 있다. 하지만, 이미지 캡셔닝의 주된 목적인 정확한 캡션 생성은 정확한 내용을 서술되면서 또한 사용자가 읽기 쉬운 단어 배치로 캡션이 생성되어야 한다. 따라서, 단어의 배치나 문장 구조와 같은 문법적인 특성을 고려한 연구가 필요하다. 단어의 품사는 단어가 문장에서 가지는 문법적인 역할을 표현한 정보로, 단어의 배치와 문장 구조에 대한 특징들을 가지고 있다. 예를 들어, 관사는 명사 앞에 배치되어 명사와 함께 쓰이는 품사이며, 형용사는 명사를 수식하는 역할로 명사의 전후에 배치된다. 즉, 품사의 배치는 다른 품사와 연결되어 있다. 또한, 명사와 동사와 같은 품사의 단어는 이 미지의 내용을 직접적으로 나타내는 정보일 것이다. 즉, 명사나 동사 같은 품사는 이미지의 내용에서 주체가 될 수 있 는 객체의 상태, 종류를 설명한다는 것이다. 이를 이미지 캡셔닝에서 이미지, 문장과 함께 메타데이터로써 사용하면 문 법적인 구조를 유지하는 정확한 캡션을 생성할 수 있다. 본 연구에서는 품사를 어텐션 요소로 사용하는 이미지 캡셔닝 모델을 제안한다. 제안하는 이미지 캡셔닝 모델은 이 미지의 특징을 추출하는 인코더, 이미지 특징 벡터와 문장 정보 간의 어텐션 정도를 계산하고 이미지 특징 벡터와 품 사 간 어텐션 정도를 계산해 같이 결합하는 어텐션 레이어와 문장 정보와 품사 정보를 함께 결합하여 캡션을 생성하 는 레이어가 포함된 디코더로 구성되어 있다. 이미지와 문장 간 어텐션 정도는 문장에 따라 집중될 이미지 정보를 파 악할 수 있고 이미지와 품사 간 어텐션 정도는 품사에 따라 집중될 이미지 정보를 파악할 수 있다. 그리고 문장 정보 와 품사 정보를 결합한 캡션 정보와 어텐션 정보를 결합함으로써 품사와 이미지에 집중된 정확하고 문장 구조를 준수 한 캡션을 생성할 수 있다.

저자정보

  • 배주원 한국해양대학교 전기전자공학과 & 해양인공지능 융합전공, 박사과정
  • 정성범 한국해양대학교 전기전자공학과 & 해양인공지능 융합전공, 석사과정
  • 서동환 한국해양대학교 전자전기정보공학부 & 해양인공지능 융합전공, 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.