원문정보
Design for Portfolio Management Using Multi-Agent Deep Reinforcement Learning
초록
영어
Over 70 years ago, Harry Markowitz published his portfolio optimization works. Nevertheless, research is currently underway to devise more effective strategies with the aim of attaining improved returns. Recent advances in reinforcement learning have enabled the exploration of new methods to create portfolios that maximize risk-adjusted returns. This study unleashed a new approach that integrates asset selection with reinforcement learning and benchmark index. The main empirical analysis results are as follows. First, all of the proposed portfolios showed relatively high cumulative return performance compared to the benchmark index. Especially, portfolio model 1 showed a positive sharp ratio for all periods. One reason for this is that we determine an advantage based on the state value by comparing it to an action probability, which requires understanding action probabilities. Second, the average maximum drawdown of the proposed investment portfolios was also lower or similar to the benchmark index. The proposed integrated portfolio was demonstrated to result in reduced volatility while preserving profit opportunities. In this context, the propped portfolio presents an opportunity to take direct indexing investement strategy to the next level.
한국어
투자 포트폴리오는 현대 포트폴리오 이론에 근거하여 해리 마코위츠가 제안한 계량 모델로서 비체계적 위험을 감소시키는 것을 목표로 삼는 이론 체계이다. 현대 사회를 급진전시킨 컴퓨팅 환경하에서 최근 통계나 기계학습 기법을 기반으로 한 포트폴리오 전략 수립이 지배적 현상으 로 나타나고 있다. 특히, 기계학습 기법 중 강화학습을 적용한 투자 포트폴리오 구축이 주목받으면서 이에 관한 국내 연구도 수행된 바 있다. 하 지만 투자 포트폴리오에 강화학습을 적용한 연구는 활성화되지 못한 채 여전히 미흡한 수준에 머물러 있는 것으로 보인다. 본 연구는 자산 선택 과 강화학습이 통합된 포트폴리오를 위험조정 수익 극대화 측면에서 벤치마크 지수와 비교·분석하였다. 주요 실증분석 결과는 다음과 같다. 첫 째, 제안한 모든 포트폴리오들은 위험 대비 높은 투자 성능을 비교해 보면 벤치마크 지수에 비해 상대적으로 높은 누적 수익 성과를 보여 주었 다. 더불어 포트폴리오 모형 1은 모든 기간에서 정(+)의 샤프비율을 보였는데, 이러한 결과는 동작 확률 분포에 입각해 동작 선택 후 보상의 획 득을 가능케 하고, 이것을 상태 가치와 비교해 이익 계산을 실행함으로써 최적 정책의 학습 확률이 증진되었다고 판단된다. 둘째, 제안한 포트 폴리오들의 평균 최대손실폭도 벤치마크 지수보다 낮거나 비슷하게 나타났다. 이로 인해 수익 기회의 온전성 유지 및 변동성 감소를 동시에 추 구할 수 있는 것이다. 이를 통해 제안한 통합된 포트폴리오가 적정히 잘 작동되고 있음이 실증되었다. 이런 맥락에서 자산 선택과 강화학습이 통합된 포트폴리오에 관한 연구는 학문적 측면에서 핵심 연구 주제가 될 뿐만 아니라 현업의 다이렉트 인덱싱 고도화에 있어서도 근원적 탐구 대상이 된다.
목차
I. 서론
II. 이론적 배경
1. 어드밴티지 액터 크리틱 모형
2. 근위 정책 최적화 모형
3. 심층 결정론적 정책 경사모형
III. 실증 분석
1. 자료의 구성
2. 모형의 추정 및 분석
IV. 결론
참고문헌
Abstract