원문정보
An Efficient RAG Invocation Method Based on Query Type and Confidence
초록
영어
Retrieval-Augmented Generation (RAG) is widely used to enhance the accuracy of large language models (LLMs) by supplementing their responses with external knowledge. However, the conventional RAG approach, which performs retrieval for every query, can lead to unnecessary latency and computational cost. In this paper, we propose a selective RAG strategy that triggers retrieval only when the confidence score generated by the LLM falls below a predefined threshold. To further address the limitations of relying solely on confidence, we introduce an exception handling mechanism based on specific query traits, such as recency, factual specificity, and definitionseeking intent, which are more likely to require retrieval regardless of confidence. We conduct experiments on two datasets: general knowledge questions from the Natural Questions benchmark and Korean neologism queries that reflect recent linguistic trends. Evaluations are performed using multiple language models, including GPT-4o, GPT-3.5-turbo, and DeepSeek-Chat. Results show that our approach reduces retrieval calls by more than 50% on average while maintaining answer accuracy comparable to the full RAG setting. This demonstrates that combining LLM’s intrinsic confidence estimation with query trait analysis can significantly improve both the efficiency and practicality of RAG systems.
한국어
RAG (Retrieval-Augmented Generation)은 대형 언어 모델(Large Language Model, LLM)의 한계를 보완 하기 위해 외부 지식을 활용하는 방식으로, 질의응답 정확도 향상에 널리 활용되고 있다. 그러나 모든 질문에 대해 일률적으로 검색을 수행하는 기존 RAG 구조는 응답 지연과 불필요한 계산 비용을 초래할 수 있다. 본 연구에서는 언어 모델이 응답과 함께 산출한 확신도(Confidence) 점수를 기반으로, 확신도가 낮은 경우에만 검색을 수행하는 선택적 RAG 호출 전략을 제안한 다. 또한 단순 확신도 기반 판단의 한계를 보완하기 위해, 최신성, 수치 요구, 정 의 요청과 같은 검색 필요성이 높은 질문 유형을 예외적으로 처리하는 메커니즘도 함께 도입하였다. 실험은 일반 상 식 질의(Natural Questions)와 최신 트렌드 기반의 신조어 질의를 포함한 두 가지 데이터셋에서 수행되었으며, GPT와 DeepSeek을 통해 평가되었다. 그 결과, 제안한 전략은 전체 정답률을 유지하면서도 검색 호출 횟수를 평 균 50% 이상 절감하였다. 본 연구는 LLM의 내재적 판단 능력과 질문 특성 분석을 결합함으로써, RAG 시스템의 정확성과 효율성을 동시에 향상시킬 수 있는 실용적 방안을 제시한다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 RAG 응답 평가 연구
2.2 LLM의 확신도 추정 및 질의 기반 제어
3. 제안 방법
3.1 RAG 호출이 필요한 질문 판별 기준
3.2 전체 프로세스 구조
3.3 정확도 산출 방식
4. 실험 결과
4.1 데이터셋과 실험환경
4.2. 확신도 기반 검색 판단 전략의 유효성 분석
4.3 비교 실험 결과
5. 결론
Acknowledgements
참고문헌
