원문정보
Latent Market Simulation for Portfolio Management via Monte Carlo Tree Search
초록
영어
This study presents a methodology for portfolio management using reinforcement learning, in which agent actions drive latent state transitions. By estimating these transitions, the agent acquires a latent world model that serves as the foundation for more sophisticated investment strategies. Building on this idea, we introduce a novel framework that integrates reinforcement learning with Monte Carlo Tree Search, thereby enabling a richer understanding of the underlying environment beyond mere reward maximization. Empirical results show that the proposed method achieved an average cumulative return of 31.617% across four independent 50-day test datasets, consistently outperforming benchmark algorithms. Moreover, the performance observed over a 50-day horizon corresponds to an annualized return of approximately 365.667%, underscoring its effectiveness in both short- and long-term contexts. Collectively, these findings suggest that the MuZero-based search framework can simultaneously support environment modeling through a latent world representation and deliver robust performance under the uncertainty and complexity inherent in financial markets.
한국어
본 연구는 강화학습 기반 포트폴리오 관리에서 에이전트의 행동이 잠재적 상태 전이를 일으키며, 이러한 전이 과정 을 추정함으로써 잠재 세계 모형(latent world model)을 학습하고 이를 바탕으로 포트폴리오 전략을 설계하는 방 법을 제안한다. 이를 위해 강화학습과 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 결합한 새로 운 접근을 도입하여 단순한 보상 극대화를 넘어 환경 구조에 대한 내재적 이해를 가능하게 하였다. 실증 분석 결과, 제안된 방법은 네 개의 독립된 50일 일간 테스트 구간에서 평균 약 31.617%의 누적 수익률을 기록하며, 기존 알 고리즘을 일관되게 상회하였다. 특히 50일 성과를 연환산하면 약 365.667%에 해당해 단기와 장기 모두에서 우수 성을 보였다. MuZero 기반 탐색 구조는 금융시장의 불확실성과 복잡성 속에서도 잠재 세계 모형을 통한 환경 이해 와 성과 달성을 동시에 가능하게 함을 입증했다.
목차
Abstract
1. 서론
2. 관련 연구
3. 방법론
3.1 MCTS와 MuZero
3.2 데이터 수집 및 처리
3.3 학습용 경험의 수집
3.4 학습과정
4. 실험 결과
4.1 실험 환경
4.2 평가지표 설명
4.3 실험 결과 비교
5. 결론
Acknowledgements
참고문헌
