원문정보
초록
영어
This study proposes a box office prediction model utilizing AI and machine learning (ML) techniques based on static data available before a film’s release and evaluates its performance by comparing it with existing baseline models. Using KOBIS data collected from 2013 to 2024, we generated descriptive statistics and interaction-derived variables for actors, directors, distributors, and genres. Key features were selected using Recursive Feature Elimination with Cross-Validation (RFECV). Additionally, an AutoML approach was applied to train an optimized model for the dataset, and Naver search trend data was incorporated to enhance predictive performance. Experimental results demonstrated that the proposed model outperformed both baseline and existing research models, achieving high accuracy based on F1-Macro and AHPR-Bingo evaluation metrics. Notably, interaction-derived variables were identified as key contributors to model performance improvement, confirming that prediction models based on static data can serve as valuable tools in the decision-making processes of the film industry. This study makes both academic and practical contributions by presenting a box office prediction model solely based on static data. The findings provide a useful framework for film producers and distributors to support strategic decision-making before release. Future research can extend this study by incorporating dynamic data and applying the model to diverse datasets for further validation and enhancement.
한국어
본 연구는 영화 개봉 전 활용 가능한 정적 데이터를 기반으로 AI 및 기계 학습(Machine Learning, ML) 기법을 활용한 영화 흥행 예측 모델을 제안하고, 이를 기존 베이스라인 모델과 비교하여 성능을 평가하였다. 2013년부터 2024년까지 수집된 KOBIS 데이터를 활용하여 배우, 감독, 배급사, 장르별 기술 통계와 상호작용 파생변수를 생성하였으며, RFECV(Recursive Feature Elimination with Cross- Validation)를 통해 주요 변수를 선별하였다. 또한, AutoML 기법을 적용하여 데이터셋에 최적화된 모델을 학습하고, 네이버 검색어 트렌드 데이터를 추가적으로 반영하여 예측 성능을 향상시켰다. 실험 결과, 최종 제안모델은 베이스라인 모델 및 기존 연구모델을 뛰어넘는 성능을 보였으며, F1-Macro 및 AHPR-Bingo를 활용한 평가 척도에서 높은 정확도를 기록하였다. 특히, 상호작용 파생변수는 모델 성능 개선에 기여하는 주요 변수로 나타났으며, 정적 데이터를 활용한 예측 모델이 영화 산업 내 의사결정 과정에서 유의미한 도구로 작용할 수 있음을 입증하였다. 본 연구는 정적 데이터만을 활용한 영화 흥행 예측 모델을 제안함으로써 학술적 및 실무적 기여를 제공한다. 연구 결과는 영화 제작사와 배급사가 개봉 전 전략적 의사결정을 지원하는 데 유용한 프레임워크를 제공하며, 향후 연구는 동적 데이터를 포함한 확장된 모델 개발 및 다양한 데이터셋 적용을 통해 본 연구를 보완할 수 있을 것으로 기대된다.
목차
Ⅰ. 서론
Ⅱ. 문헌연구
2.1 단일 모델 및 변수 선택 기반 예측 방법론
2.2 앙상블 및 모델 결합 기반 예측 방법론
2.3 RFECV 및 AutoML 방법론
Ⅲ. 제안 모델
3.1 개략도
3.2 데이터 수집 및 전처리
3.3 모델링 단계
Ⅳ. 실험 및 결과
4.1 베이스라인 모델
4.2 평가 척도
4.3 실험 및 결과
4.4 학습 변수 중요도
Ⅴ. 결론
5.1 실무적 시사점 및 학술적 기여
5.2 한계 및 향후 연구 방향
참고문헌
Abstract
