원문정보
초록
영어
This study employed financial text mining to forecast the monthly stock returns of the top 10 KOSPI-listed companies by market capitalization, using DART electronic disclosures and NAVER news articles from January 2020 to December 2024. A hybrid sentiment index was constructed by averaging scores from the KNU Korean Sentiment Lexicon and a BERT-based sentiment model, capturing both lexicon-driven and deep learning–based perspectives. Three predictive models—LSTM, XGBoost, and Random Forest—were applied, and results showed that the LSTM model with the hybrid sentiment index consistently outperformed the others, recording the lowest RMSE and MAE and the highest R². The findings demonstrate that integrating qualitative sentiment with quantitative data improves forecasting performance and confirm the broader applicability of this methodology to other financial assets such as bonds and cryptocurrencies.
한국어
본 연구는 금융 텍스트 마이닝을 활용하여 KOSPI 시가총액 상위 10개 기업의 월간 주가 수익 률를 예측하였다. 연구 데이터는 2020년 1월부터 2024년 12월까지의 DART 전자공시와 NAVER 뉴 스 기사로 구성하였다. 텍스트 데이터는 KNU 한국어 감성사전 기반 감성 점수와 BERT 기반 감성 점수를 산출한 뒤, 이를 단순 평균하여 최종 감성 지표를 생성하였다. 예측 모형으로는 LSTM, XGBoost, Random Forest를 사용하여 성능을 비교하였다. 분석 결과, 감성 지표를 포함한 LSTM 모 델이 모든 기업에서 가장 낮은 RMSE와 MAE, 그리고 가장 높은 R² 값을 기록하였다. 특히 사전 기 반과 딥러닝 기반 감성 분석을 결합한 혼합 감성 지표는 개별 감성 지표보다 높은 예측력을 보였다. 본 연구는 정량 데이터와 정성 데이터의 융합이 금융시장 예측에서 유의미한 성과를 낼 수 있음을 실 증적으로 확인하였다. 본 연구의 결과는 감성 분석이 주가 예측에 미치는 영향을 정량적으로 검증하 였다는 점에서 학문적 의의가 있다. 또한 해당 방법론은 주식뿐 아니라 채권, 암호화폐 등 다른 금융 자산에도 적용 가능성이 높아, 다양한 금융시장 분석에 활용될 수 있다.
목차
Abstract
1. 서론
2. 연구방법
2.1. 데이터 수집 및 대상 기업
2.2. 감성 점수 산출
2.3. 월간 수익률 및 예측 모형
3. 실증 분석 결과
3.1. 감성 점수 추이와 주가 동향
3.2. 예측 모델 성능 비교
4. 결론
REFERENCES
