earticle

논문검색

기술 융합(TC)

해외선물 스캘핑을 위한 강화학습 알고리즘의 성능 비교

원문정보

Performance Comparison of Reinforcement Learning Algorithms for Futures Scalping

정득교, 이세훈, 강재모

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Due to the recent economic downturn caused by Covid-19 and the unstable international situation, many investors are choosing the derivatives market as a means of investment. However, the derivatives market has a greater risk than the stock market, and research on the market of market participants is insufficient. Recently, with the development of artificial intelligence, machine learning has been widely used in the derivatives market. In this paper, reinforcement learning, one of the machine learning techniques, is applied to analyze the scalping technique that trades futures in minutes. The data set consists of 21 attributes using the closing price, moving average line, and Bollinger band indicators of 1 minute and 3 minute data for 6 months by selecting 4 products among futures products traded at trading firm. In the experiment, DNN artificial neural network model and three reinforcement learning algorithms, namely, DQN (Deep Q-Network), A2C (Advantage Actor Critic), and A3C (Asynchronous A2C) were used, and they were trained and verified through learning data set and test data set. For scalping, the agent chooses one of the actions of buying and selling, and the ratio of the portfolio value according to the action result is rewarded. Experiment results show that the energy sector products such as Heating Oil and Crude Oil yield relatively high cumulative returns compared to the index sector products such as Mini Russell 2000 and Hang Seng Index.

한국어

최근 Covid-19 및 불안한 국제정세로 인한 경기 침체로 많은 투자자들이 투자의 한 수단으로써 파생상품시장 을 선택하고 있다. 하지만 파생상품시장은 주식시장에 비해 큰 위험성을 가지고 있으며, 시장 참여자들의 시장에 대 한 연구 역시 부족한 실정이다. 최근 인공지능 분야의 발달로 파생상품시장에서도 기계학습이 많이 활용되고 있다. 본 논문은 해외선물에 분 단위로 거래하는 스캘핑 거래의 분석을 위해 기계학습 기법 중 하나인 강화학습을 적용하 였다. 데이터 세트는 증권사에서 거래되는 해외선물 상품들 중 4개 상품을 선정해, 6개월간 1분봉 및 3분봉 데이터의 종가, 이동평균선 및 볼린저 밴드 지표들을 이용한 21개의 속성으로 구성하였다. 실험에는 DNN 인공신경망 모델과 강화학습 알고리즘인 DQN(Deep Q-Network), A2C(Advantage Actor Critic), A3C(Asynchronous A2C)를 사용하 고, 학습 데이터 세트와 테스트 데이터 세트를 통해 학습 및 검증 하였다. 에이전트는 스캘핑을 위해 매수, 매도 중 하나의 행동을 선택하며, 행동 결과에 따른 포트폴리오 가치의 비율을 보상으로 한다. 실험 결과 에너지 섹터 상품 (Heating Oil 및 Crude Oil)이 지수 섹터 상품(Mini Russell 2000 및 Hang Seng Index)에 비해 상대적으로 높은 누적 수익을 보여 주었다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 선행 연구
Ⅲ. 연구 방법
1. 데이터 세트(Data Set)
2. 강화학습 모델
3. 에이전트
Ⅳ. 실험 및 결과
Ⅴ. 결론
References

저자정보

  • 정득교 Deuk-Kyo Jung. 준회원, 경북대학교 인공지능학과 석사과정
  • 이세훈 Se-Hun Lee. 준회원, 경북대학교 인공지능학과 석사과정
  • 강재모 Jae-Mo Kang. 정회원, 경북대학교 인공지능학과 조교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.