원문정보
Language-Based Semantic Embedding for Artwork Image Retrieval
초록
영어
As the digitization of cultural heritage accelerates to improve preservation and accessibility, the importance of effective artwork image retrieval systems is increasing. However, existing unsupervised learning-based image embedding methods such as DINOv2 show limited performance in the artwork domain, which is characterized by datasets lacking labels and subtle visual differences that represent completely different artistic genres. This study proposes a novel approach to overcome these limitations by utilizing Vision-LLMs to generate rich textual descriptions of artwork images, vectorizing them through sentence embedding models, and performing semantic similarity-based retrieval. Through systematic comparison of various Vision-LLM models, sentence embedding models, and similarity measurement methods, the proposed approach achieved 79.17% accuracy and 0.6771 mAP, demonstrating a 171.41% improvement in accuracy and 211.45% improvement in mAP compared to the existing unsupervised learning-based approach DINOv2. In particular, the combination of the Qwen2.5-VL-3B-Instruct model and context-aware embedding models achieved the best performance, suggesting that language-based semantic approaches can effectively leverage contextual, semantic, and symbolic characteristics of artworks that are difficult to capture through visual features alone.
한국어
문화유산 보존과 접근성 향상을 위한 디지털화가 가속화됨에 따라, 효과적인 회화 이미지 검색 시스템의 중요성이 증가하고 있다. 그러나 라벨이 부족한 데이터셋과 미세한 시각적 차이가 완전히 다른 예술 장르를 나타내는 회화 도 메인의 특성으로 인해, DINOv2와 같은 기존의 비지도 학습 기반 이미지 임베딩 방법은 제한적인 성능을 보인다. 본 연구에서는 이러한 한계를 극복하기 위해 Vision-LLM을 활용하여 회화 이미지에 대한 풍부한 텍스트 설명을 생성하고, 이를 문장 임베딩 모델을 통해 벡터화하여 의미론적 유사도 기반 검색을 수행하는 새로운 접근법을 제안 한다. 다양한 Vision-LLM 모델과 문장 임베딩 모델, 유사도 측정 방법을 체계적으로 비교한 결과, 제안된 방법은 accuracy 79.17%, mAP 0.6771로 기존 비지도 학습 기반 접근법인 DINOv2 대비 Accuracy에서 171.41%, mAP에서 211.45% 향상된 성능을 보였다. 특히 Qwen2.5-VL-3B-Instruct 모델과 문맥 인식 임베딩 모델 조합 이 가장 우수한 성능을 달성했으며, 이는 언어 기반 의미론적 접근법이 시각적 특징만으로는 포착하기 어려운 회화 의 맥락적, 의미론적, 상징적 특성을 효과적으로 활용할 수 있음을 시사한다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 이미지 검색 방법론
2.2 비지도 학습 기반 이미지 임베딩
2.3 Vision-Large Language Models
2.4 텍스트 임베딩 기반 검색
3. 제안하는 방법
3.1 데이터셋 수집
3.2 시스템 개요 및 문제 정의
3.3 Vision-LLM 기반 회화 설명 생성
3.4 문장 임베딩을 통한 의미론적 표현
3.5 유사도 기반 검색
4. 실험
4.1 실험 설정
4.2 실험 결과
5. 결론
Acknowledgements
참고문헌
