원문정보
A Study on the Evaluation of LLM's Gameplay Capabilities in Interactive Text-Based Games
초록
영어
We investigated the feasibility of utilizing Large Language Models (LLMs) to perform text-based games without training on game data in advance. We adopted ChatGPT-3.5 and its state-of-the-art, ChatGPT-4, as the systems that implemented LLM. In addition, we added the persistent memory feature proposed in this paper to ChatGPT-4 to create three game player agents. We used Zork, one of the most famous text-based games, to see if the agents could navigate through complex locations, gather information, and solve puzzles. The results showed that the agent with persistent memory had the widest range of exploration and the best score among the three agents. However, all three agents were limited in solving puzzles, indicating that LLM is vulnerable to problems that require multi-level reasoning. Nevertheless, the proposed agent was still able to visit 37.3% of the total locations and collect all the items in the locations it visited, demonstrating the potential of LLM.
한국어
LLM(Large Language Model)을 활용하여 사전에 게임 데이터 학습 없이 텍스트 기반 게임을 수행할 수 있는지 알아보았다. LLM을 구현한 시스템으로는 ChatGPT-3.5와 가장 최신 형태인 ChatGPT-4를 채택하였다. 이에 더해 ChatGPT-4에 본 논문에서 제안하는 영구 메모리 기능을 추가하여 세 개의 게임 플레이어 에이전트를 제작하였다. 텍스 트 기반 게임으로 가장 유명한 Zork를 활용하여 복잡한 장소를 이동해가며 정보를 모으고 퍼즐을 풀 수 있는지 알아보 았다. 그 결과 세 에이전트 중 영구 메모리 기능을 추가한 에이전트의 성능이 탐험을 가장 넓은 범위로 진행하였고 점수 도 가장 뛰어났다. 그러나 세 에이전트 모두 퍼즐을 푸는데 한계를 보였으며 이는 다단계 추론이 필요한 문제에 LLM이 취약하다는 것을 보여주었다. 그럼에도 여전히 본 논문에서 제안하는 에이전트를 사용하면 전체 장소의 37.3%를 방문하 고, 방문했던 장소의 아이템을 모두 모으는데 성공할 수 있었던 것으로 LLM의 가능성을 확인할 수 있었다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 배경 및 환경 설정
1. ChatGPT
2. Zork
3. 실험 환경
4. 성능 향상 방안
5. 실험 방법
Ⅳ. 실험 결과
Ⅴ. 한계
Ⅵ. 결론
References