earticle

논문검색

AI 모델 검증을 위한 기독교 벤치마크 개발을 위한 연구

원문정보

Research on Developing a Christian Benchmark for AI Model Validation

김수환

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

As artificial intelligence technology advances rapidly, validation of AI models is also being actively conducted. AI model validation is primarily carried out through benchmarking methods, which apply standardized test sets and evaluation criteria. Representative AI benchmarks include MMLU and GPQA, and whenever a new AI model is released, benchmark validation results and analyses are presented together. In 2025, the Center for AI Safety and Scale AI conducted the Humanity’s Last Exam project, collecting questions from experts to overcome the limitations of existing benchmarks, and reported their findings. Unlike in general domains, benchmark research in the Christian domain has not been adequately conducted. Accordingly, this study explores benchmark cases grounded in orthodox Christian Bible and doctrine and conducted a foundational Christian benchmark experiment based on Bible examination items to verify the accuracy of AI models. The experimental results showed that the accuracies of the three models— ChatGPT, Gemini, and Claude—were at least 94%, and the calibration error was at most 7%. Small differences in accuracy and calibration error were observed across large language models. Overall accuracy was somewhat higher for Gemini and Claude (96%), whereas ChatGPT was relatively lower (94%). For the constructed-response items, all three models achieved a 100% correct answer rate, and the reported an average confidence was at least 97%. Calibration error was observed in the order of Claude, Gemini, and ChatGPT. Although all three models exhibited low calibration error, the presence of some incorrect items despite high accuracy and confidence indicates that hallucinations still exist. An analysis of item-level incorrect responses and confidence revealed some instances of hallucination in large language models. Major cases included situations in which the correct answer was not explicitly stated in the presented biblical passage and required inference from broader context, cases requiring selection of an exact term among similar words, cases in which the answer was chosen by considering only the beginning of a sentence without explicit reference to the biblical passage, and cases in which incorrect answers were produced due to inadequate recognition of Korean. It was concluded that, although currently developed AI models have potential applicability in the Christian domain, caution is required in their practical use. In addition, the findings suggest that, when developing a Christian benchmark, it is necessary to design items that require higher-order reasoning or understanding of contextual coherence rather than items that merely ask for simple knowledge stated in biblical passages. The results of this study provide foundational data for developing benchmark models in the Christian domain.

한국어

인공지능 기술이 급속도로 발전함에 따라 인공모델에 대한 검증도 활발히 이루어지고 있다. 인공지능 모델 검증은 주로 벤치마크(Benchmark) 방법으로 이루어지는데, 표준 화된 테스트 세트와 평가기준을 적용한다. 대표적인 인공지능 벤치마크로는 MMLU, GPQA 등이 있는데, 새로운 인공지능 모델이 나올 때마다 벤치마크 검증 결과와 분 석이 함께 제시된다. 2025년 AI안전센터와 스케일AI는 기존의 벤치마크의 한계를 극 복하기 위해 전문가들로부터 질문을 수집한 인류 마지막 시험(Humanity’s Last Exam) 프로젝트를 실시하고, 연구한 결과를 보고하였다. 일반 분야와 달리 기독교 분 야에서의 벤치마크 연구는 제대로 이루어지지 않고 있다. 따라서 본 연구에서는 정통 기독교 성경과 교리에 기반한 벤치마크의 사례를 탐색하고 인공지능 모델의 정확성을 검증하기 위해 성경고사 문항을 토대로 기독교 벤치마크 기초 실험을 실시하였다. 실 험 결과로 세 가지 모델인 챗GPT, 제미나이, 클로드의 정확도가 94% 이상을 나타났 으며, 보정 에러는 7% 이하로 나타났다. 또한 거대언어모델별로 정확도와 보정 에러 의 근소한 차이가 나타났다. 전체 정확도는 제미나이, 클로드가 96%로 다소 높았고, 챗GPT는 94%로 상대적으로 낮았다. 주관식 문항은 세 모델 모두 100%의 정답률을 보였고 평균 확신도는 97% 이상으로 보고되었다. 보정 에러는 클로드, 제미나이, 챗GPT 순서로 나타났다. 세 모델 모두 보정 에러가 낮지만 높은 정답률과 확신도에 비 해 틀린 문항이 일부 나타난 것으로 보아 여전히 환각이 존재한다는 것을 알 수 있 다. 문항별 오답과 확신도를 분석한 결과 거대언어모델이 환각을 일으키는 현상이 일 부 분석되었다. 주요 사례는 제시한 성경구절에 명확하게 답이 나타나 있지 않아서 전체 맥락을 살펴보고 추론이 필요한 경우, 유사한 단어에서 정확한 단어를 선택해야 하는 경우, 성경구절을 명확히 참조하지 않고 문장의 앞부분만 계산해서 답을 선택한 경우, 한국어를 제대로 인식하지 못해 오답을 표기한 경우로 나타났다. 현재 개발된 인공지능 모델은 기독교 분야에서 잠재적 활용 가능성이 있으나 실제 활용에서는 주 의가 필요하다는 결론이 도출되었다. 또한 기독교 벤치마크를 개발할 때는 성경 구절 에 나타난 단순 지식을 묻는 문항 보다는 고차원적 추론이나 앞뒤 문맥의 맥락을 이 해해야 풀 수 있는 문항으로 개발할 필요가 있다는 점을 시사한다. 본 연구의 결과는 기독교 분야의 벤치마크 모델 개발의 기초자료가 된다.

목차

초록
I. 들어가는 말
II. 이론적 배경
1. 거대언어모델 (Large Language Model)
2. 벤치마크 (Benchmark)
3. 인류 마지막 시험
III. 기독교 벤치마크 실험 방법 및 절차
IV. 연구결과
1. 정확도와 보정 점수 결과 및 분석
2. 오답 문항과 확신도 분석
V. 나가는 말
1. 결론
2. 제언
참고문헌
Abstract

저자정보

  • 김수환 Kim, Soo-Hwan. 총신대학교 교수 / 실천신학 / 기독교교육학

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 6,300원

      0개의 논문이 장바구니에 담겼습니다.