원문정보
Predicting the OPS of KBO Batters through Big Data Analysis Using Machine Learning
초록
영어
Recently, research on artificial intelligence has been actively conducted in various industries such as sports, and Big Data analysis technologies in the sports field are rapidly developing. In particular, baseball is difficult to predict next year's game results because certain players' performance fluctuates significantly every year. The purpose of this study is to propose a model that predicts the OPS(On-base Plus Sluging) of batters by applying machine learning algorithms based on the data of batters generated in the KBO(Korea Baseball Organization) regular season. OPS is an index that measures accuracy and slugging power based on batter's on-base percentage and slugging percentage. A total of six variables were extracted, including slugging percentage, on-base percentage, batting average, home run, RBI, and scoring variables, through correlation analysis of variables affecting batters' OPS in the 1982-2020 KBO regular season. The XGBoost(eXtreme Gradient Boosting) prediction technique used in this study showed the best OPS prediction performance through a model that predicts OPS of others through machine learning.
한국어
최근, 인공지능 관련 연구가 스포츠와 같은 다양한 산업에서 활발하게 진행되고 있으며, 스포츠 분야의 빅 데이터 분석 기술을 빠르게 발전하고 있다. 특히 야구는 매년 특정 선수의 성적이 크게 요동치기 때문에 내년 경기 결과를 예측하기 어렵다. 이번 연구는 KBO(Korea Baseball Organization) 정규시즌에서 생성된 타자의 데이터를 바탕으로 머신러닝 알고리즘을 적용해 타자의 OPS(On-base Plus Slugging)를 예측하는 모델을 제안하기 위한 것 이다. OPS는 타자의 출루율과 장타율을 바탕으로 정확도와 장타력을 측정하는 지수다. 1982~2020년 KBO 정규시 즌 타자의 데이터를 바탕으로 타자의 OPS에 영향을 미치는 변수의 상관 분석을 통해 장타율, 출루율, 타율, 홈런, 타점, 득점 변수 등 총 6개의 변수를 추출하였다. 이번 연구에서 사용된 XGBoost(Extreme Gradient Boosting) 예 측기법은 머신러닝을 통해 타자의 OPS를 예측하는 모델을 통해 최고의 OPS 예측 성능을 보여주었다.
목차
Abstract
Ⅰ. 서론
1.1 연구의 배경 및 목적
1.2 연구 범위 및 방법
Ⅱ. 선행 연구 고찰
Ⅲ. 머신러닝 방법론
3.1 XGBoost
3.2 LightGBM
3.3 RandomForest
3.4 Support Vector Regression
3.5 Linear Regression
3.6 Ridge
3.7 Lasso
Ⅳ. 머신러닝을 이용한 OPS 예측모델 개발
4.1 데이터 및 변수
4.2 데이터 전처리
4.3 평가모델 성능
Ⅴ. 결론
REFERENCES