원문정보
초록
영어
[Purpose] This study aims to develop a corporate bankruptcy prediction model using financial synthetic data from AI-Hub and to address the “black box” problem of complex machine learning models by applying the explainable artificial intelligence (XAI) technique SHAP (SHapley Additive exPlanations). The goal is to achieve high predictive performance while identifying major bankruptcy risk factors to enhance the transparency and reliability of predictions. [Methodology] A LightGBM-based prediction model was constructed, and hyperparameter optimization was conducted using Optuna. After modeling with consideration for the imbalanced data characteristics, SHAP values were utilized to quantitatively analyze the influence of key variables and to perform risk group clustering. [Findings] Experimental results showed that the recall for bankrupt firms was 74.53%, and the precision was 38.96%. The F₂-score, which emphasizes recall, was 0.6302. Five-fold cross-validation yielded an average F₂-score of 0.6845 with a standard deviation of 0.0049, demonstrating stable generalization performance. Variable importance analysis revealed that corporate credit rating and the number of employees were the most influential factors. [Implications] This study provides a practical case for researchers facing data scarcity by conducting empirical bankruptcy prediction on a realistic scale using publicly available domestic financial synthetic data. Furthermore, the SHAP-based model interpretation demonstrates that AI models can secure transparency and explainability in financial institutions’ risk management. Future research should validate the model using actual corporate data, integrate unstructured data such as news texts, and apply various XAI techniques to ensure diverse interpretability.
한국어
[연구목적] 본 연구는 AI-Hub의 금융 합성 데이터를 활용하여 기업 부도 예측 모델을 개발하고, 복잡한 기계학습 모델의 ‘블랙박스’ 문제를 해결하기 위해 설명가능한 인공지능(XAI) 기법인 SHAP(SHapley Additive exPlanations)을 적용하였다. 이를 통해 높은 예측 성능을 확보함과 동시에, 주요 부도 위험 요인을 식별하여 예측의 투명성과 신뢰성을 제고하는 것을 목표로 하였다. [연구방법] 연구 방법으로는 LightGBM 기반 예측 모델을 구축하고, Optuna를 활용한 하이퍼파라미터 최 적화를 수행하였다. 불균형 데이터 특성을 반영한 모델링 후, SHAP 값을 이용해 주요 변수의 영향력을 정량적 으로 분석하고 위험 그룹 클러스터링을 실시하였다. [연구결과] 실험 결과, 부도기업 탐지 재현율은 74.53%, 정밀도는 38.96%를 기록하였으며, 재현율을 중시하 는 F₂-score는 0.6302로 나타났다. 5-Fold 교차검증 결과 평균 F₂-score는 0.6845(표준편차 0.0049)로 안정적 인 일반화 성능을 보였다. 변수 중요도 분석에서는 기업 신용평가등급과 종업원 수가 가장 큰 영향 요인으로 확인되었다. [연구의 시사점] 본 연구는 국내 공개 금융 합성 데이터를 활용하여 현실과 유사한 규모의 부도 예측 실증 을 수행함으로써 데이터 부족 문제를 겪는 연구자들에게 참고 사례를 제공한다. 또한 SHAP 기반의 모델 해석 을 통해 금융기관의 리스크 관리에 필요한 투명성과 설명가능성을 확보할 수 있음을 입증하였다. 향후 연구에 서는 실제 데이터를 활용한 검증과 비정형 데이터 통합, 다양한 XAI 기법 적용을 통한 해석 다양성 확보가 필요하다.
목차
Ⅰ. 서론
Ⅱ. 관련 연구
2.1 기업 부도 예측 모델
2.2 XAI와 SHAP
2.3 금융 분야에서의 SHAP 적용 사례
Ⅲ. 연구방법
3.1 AI-Hub 금융 합성 데이터 개요
3.2 데이터 전처리 및 변수 선정
3.3 모델링
3.4 SHAP 기반 모델 해석
Ⅳ. 실험 결과 및 분석
4.1 예측 성능 평가
4.2 예측 확률 보정 평가
4.3 SHAP 기반 변수 해석
Ⅴ. 결론
참고문헌
< Abstract >
