원문정보
Comparative Analysis of Single and Multimodal Models based on Reinforcement Learning in Cryptocurrency Automated Trading
초록
영어
This study proposes a deep learning-based multimodal trading system designed to achieve stable and high returns in the highly volatile cryptocurrency market. The proposed system integrates visual pattern information from candlestick charts, a traditional technical analysis indicator, with sentiment information from news articles, which reflects the market's psychological factors. Candlestick chart images are analyzed using a CNN-based model, while the sentiment of news articles is evaluated using a large language model (LLM), the DeepSeek R1 (32B) model. These two modalities are then effectively fused through a cross-modal attention mechanism. Furthermore, a reinforcement learning ensemble system incorporating priority experience replay (PER) is introduced to learn adaptive trading policies for varying market conditions. Backtesting on 2023 cryptocurrency market data demonstrates that the proposed system significantly outperforms both single models and conventional trading strategies. Specifically, it achieved a total return of 332.6%, a Sharpe ratio of 2.45, and a win rate of 68.5%. The system also maintained its robust performance in a realistic trading environment that accounted for transaction costs. These findings indicate that a trading system combining multimodal learning and reinforcement learning can be effectively applied to complex financial markets, showing promising directions for robust, real-time trading systems.
한국어
본 연구는 변동성이 높은 암호화폐 시장에서 안정적이고 높은 수익을 목표로 하는 딥러닝 기반 멀티모달 강화학습 트레이딩 시스템을 제안한다. 제안 시스템은 전통적인 기술적 분석 지표로 활용되는 캔들스틱 차트의 시각적 패턴 정보와 시장의 심리적 요인을 반영하는 뉴스 기사의 감성 정보를 통합적으로 활용한다. 캔들스틱 차트 이미지를 CNN 기반 모델로 분석하고, 대규모 언어 모델(LLM)인 DeepSeek R1(32B) 모델을 활용하여 뉴스 기사의 감성 을 평가한 후, 크로스 모달 어텐션 메커니즘을 통해 두 정보를 효과적으로 융합한다. 또한 우선순위 경험 재생을 적 용한 강화학습 앙상블 시스템을 도입하여 다양한 시장 상황에 대응할 수 있는 트레이딩 정책을 학습한다. 2023년 암호화폐 시장 데이터를 활용한 백테스팅 결과, 제안 시스템은 단일 모델과 기존 트레이딩 전략보다 우수한 성능을 보였다. 구체적으로 332.6%의 수익률, 2.45의 샤프 비율(Sharpe Ratio), 68.5%의 거래 승률을 달성하였으며, 거래 비용을 고려한 실전 환경에서도 강건한 성능을 유지하였다. 이러한 연구 결과는 멀티모달 학습과 강화 학습을 결합한 거래 시스템이 복잡한 금융 시장에 효과적으로 적용될 수 있음을 보여주며, 견고하고 실시간적인 거래 시스 템에 대한 유망한 방향을 제시한다.
목차
Abstract
1. 서론
2. 관련연구
3. 실험 방법
3.1 데이터 레이어
3.2 멀티모달 융합 레이어
3.3 강화학습 앙상블 시스템
3.4 예측 및 리스크 관리
4. 실험 결과
4.1 데이터셋 및 실험 설정
4.2 성능 비교 모델
4.3 실험 결과
5. 결론 및 향후 계획
Acknowledgment
참고문헌
부록(Appendix)
