원문정보
Evaluating Fixed-size and Sentence-based Chunking Strategies for RAG System : A Korean Case on KorQuAD1.0
초록
영어
This study analyzes the impact of chunking strategies on retrieval quality and answer accuracy in Korean retrieval-augmented generation (RAG) systems. Using 612 Wikipedia documents from the KorQuAD dataset and 1,500 question–answer pairs, fixed-size chunking strategies and sentencelevel chunking were comparatively evaluated. Experimental results show that 200-character fixedsize chunking achieves the highest answer accuracy of 68.8%. While semantic similarity improves as chunk size increases, answer accuracy declines beyond 300 characters, revealing a retrieval– generation discrepancy in which improved retrieval performance does not directly translate into better generation outcomes. Sentence-level chunking exhibits the lowest performance among the evaluated strategies. This study empirically elucidates the gap between retrieval quality and generation performance in Korean extractive question-answering–based RAG systems and provides quantitative design guidelines for effective chunking strategies.
한국어
본 연구는 한국어 검색 증강 생성(RAG) 시스템에서 청킹 전략이 검색 품질과 답변 정확도에 미치는 영향을 분석하 였다. KorQuAD 데이터셋 기반 612개 위키피디아 문서와 1,500개 질의응답 쌍을 활용하여 고정 크기 청킹과 문 장 단위 청킹을 비교 평가하였다. 실험 결과, 200자 고정 청킹이 답변 정확도 68.8%로 가장 우수한 성능을 보였 다. 청크 크기 증가에 따라 의미 유사도는 향상되었으나, 300자 이후 답변 정확도는 감소하여 검색 성능 향상이 생 성 성능으로 직결되지 않는 검색–답변 괴리 현상이 확인되었다. 문장 단위 청킹은 가장 낮은 성능을 기록하였다. 본 연구는 한국어 추출형 질의응답 기반 RAG 시스템에서 검색 품질과 생성 성능 간의 괴리를 실증적으로 규명하 고, 청킹 전략 설계를 위한 정량적 기준을 제시한다.
목차
Abstract
1. 서론
2. 관련연구
2.1 고정 크기 청킹(Fixed-Size Chunking)
2.2 청크 크기에 따른 성능
2.3 문장 단위 분할(Sentence-Aware Chunking)
2.4 모델 및 데이터 특성에 따른 청킹
2.5 청킹 전략의 발전 동향
2.6 논문의 연구 방향
3. 연구 방법
3.1 연구 개요
3.2 데이터셋
3.3 청킹 전략
3.4 시스템 구성
3.5 평가 지표
3.6 실험 설계
4. 실험 결과
4.1 전체 성능 비교
4.2 검색 성능 분석
4.3 의미 유사도 분석
4.4 답변 정확도(Accuracy) 분석
4.5 검색-답변 괴리 현상
4.6 문장 단위 청킹의 한계
5. 결론
Acknowledgement
참고문헌
