원문정보
Query-Aware SciBERT Embeddings for Semantic Exploration and Clustering of Scholarly Documents
초록
영어
Effectively exploring user-desired information and understanding the structure of large document collections remain significant challenges. Conventional document embedding models generate static semantic representations, which limit their ability to reflect diverse user intents and perspectives. To address this limitation, this study proposes a novel framework that dynamically reconstructs the semantic space of documents according to a user's query. Leveraging the pre-trained language model SciBERT, the framework generates Query-Aware Dynamic Embeddings that explicitly model the relationship between a query and each document. These embeddings are then projected into a lower-dimensional space using UMAP and clustered with HDBSCAN, enabling multi-faceted and in-depth exploration of document collections. The proposed pipeline provides an effective exploratory environment in which users can actively control the scope of analysis through queries, thereby gaining deeper insights into the semantic organization of large-scale document collections.
한국어
대규모 문서 집합에서 사용자가 찾고자 하는 정보를 효과적으로 탐색하고 문서 집합의 구성을 이해하는 것은 중요한 과제이다. 기존 문서 임베딩 모델은 고정된 의미 표현만을 생성해 다양한 탐색 의도나 관점을 반영하는 데 한계가 있다. 본 연구는 이를 해결하기 위해 사용자 질의(Query)에 따라 문서 의미 공간을 동적으로 재구성하는 새로운 프 레임워크를 제안한다. 사전 학습 언어 모델(SciBERT)을 활용해 질의와 문서의 관계를 모델링하는 질의 인식 동적 임베딩(Query-Aware Dynamic Embedding)을 생성하며, 이를 UMAP 기반 차원 축소와 HDBSCAN 군집화 에 적용하여 다각적이고 심층적인 문서 탐색을 지원한다. 이 파이프라인은 사용자가 질의를 통해 분석 범위(Scope) 를 능동적으로 조절하며 문서 집합에 대한 통찰력을 얻는 효과적인 탐색 환경을 제공한다.
목차
Abstract
1. 서론
2. 관련연구
2.1 정보 검색을 위한 Query-Aware 임베딩
2.2 임베딩 기반의 탐색적 시각 분석
3. 방법론
3.1 Query-Aware 문서 임베딩 작성
3.2 차원 축소 및 클러스터링
3.3 실험 환경 및 재현성 확보
4. 실험결과
4.1 데이터셋 구축
4.2 Unsupervised 평가: 임베딩 전략 비교
4.3 정성적 분석: 시각화를 통한 의미 구조 비교
5. 논의
6. 결론 및 향후 연구
Acknowledgements
참고문헌
