원문정보
Quantitative Comparison of Tool-Integration Methods in Large Language Models : Tool-Calling, MCP, and RAG-MCP
초록
영어
The development of large language models has significantly changed the way they interact with external tools and APIs. Representative approaches can be classified into three categories: Tool-Calling, Model Context Protocol (MCP), and RAG-MCP. However, as the number of tools increases, structural limitations such as prompt bloat and a decline in selection accuracy emerge. This study compares the three approaches by applying the LLaMA3-8b-Instruct model on the Berkeley Function Calling Leaderboard (BFCL) dataset. In particular, We varied the toolset size to 50, 100, and 150 tools, and measured tool invocation accuracy, parameter filling accuracy, token consumption, and latency. Through this analysis, we identify the performance and cost characteristics of each method and provide quantitative criteria for rationally selecting tool integration strategies in LLM-based system design.
한국어
대규모 언어 모델의 발전은 외부 도구 그리고 API와의 상호작용 방식을 크게 변화시켰다. 대표적인 접근법으로는 Tool-Calling, MCP(Model Context Protocol), RAG-MCP 세 가지 접근법으로 구분된다. 그러나 도구 수가 증가할수록 프롬프트 팽창(prompt bloat)이나 선택 정확도 저하와 같은 구조적 한계가 나타난다. 본 연구에서는 BFCL(Berkeley Function Calling Leaderboard) 데이터셋을 기반으로 구축된 데이터셋에 LLaMA3-8b- Instruct 모델을 적용하여 세 접근법을 비교하였다. 특히 도구 집합의 규모를 50, 100, 150개로 변화시키며 호출 정확도, 파라미터 삽입 정확도, 토큰 소비량, 지연 시간을 측정하였다. 이러한 측정 결과를 바탕으로 각 방식의 성능 및 비용상의 특성을 규명하고, LLM(Large Language Model) 기반 시스템 설계 시 도구 호출 방식의 합리적인 선택을 위한 정량적 기준을 제시하고자 한다.
목차
Abstract
1. 서론
2. 관련연구
2.1 Tool-Calling
2.2 모델 컨텍스트 프로토콜(MCP)
2.3 검색 증강 생성(RAG)
2.4 검색 기반 생성과 MCP의 결합(RAG-MCP)
3. 실험 방법
3.1 데이터셋
3.2 실험환경
3.3. 프롬프트 템플릿
4. 실험 결과
4.1 도구 선택 정확도
4.2 파라미터 삽입 정확도
4.3 지연 시간
4.4 토큰 소비량
4.5 실험 결과 분석
5. 결론
Acknowledgements
참고문헌
