원문정보
초록
영어
This paper presents an experiment comparing the performance of sparse vectors, such as those based on Term Frequency-Inverse Document Frequency (TF-IDF), with dense vectors computed through embedding models in text classification tasks. Traditionally, sparse vectors using TF-IDF have been commonly applied in conventional machine learning algorithms such as Support Vector Machines (SVM) and Random Forest. However, with the recent advancements in embedding models, the level of semantic understanding of sentences has significantly improved, and these models have been increasingly employed for solving domain-specific problems. In this study, we calculate dense vector representations using embedding models and apply them as feature values to traditional machine learning algorithms. The experiment was conducted using a spam/non-spam email dataset, and we validated the models through 10-fold cross-validation, utilizing five embedding models and four classification algorithms. The experimental results demonstrate a 2.6% improvement in the F-score when applying dense vectors with SVM, compared to using sparse vectors. This confirms the effectiveness of dense vectors generated by embedding models in text classification tasks.
한국어
본 논문에서는 텍스트 분류 작업에서 TF-IDF(Term Frequency-Inverse Document Frequency)와 같은 희소 벡터(sparse vector)와 임베딩 모델을 통해 계산하는 밀집 벡터(dense vector)의 성능 차이를 비교하기 위해 실험을 수행한다. 과거에는 SVM, RandomForest와 같은 전통적인 머신 러닝 알고리즘에 TF-IDF 기반의 희소 벡터를 주로 사용하였으나, 최근에는 임베딩 모델의 발전으로 문장의 의미적 이해의 수준이 높아져 도메인별 문제 해결에 많이 활용되어 오고 있다. 본 논문에서는 임베딩 모델을 활 용하여 밀집 벡터 값을 계산하고, 이를 특징 값으로 하여 전통적인 머신러닝 알고리즘에 적용하여 실험을 수행하였다. 실험 데이 터 셋으로는 이메일 스팸/비스팸 데이터셋을 사용하였고, 5가지의 임베딩 모델과 4가지 분류 알고리즘으로 10 폴드 교차 검증 (10-fold cross validation)으로 검증하였다. 실험 결과에서 SVM에 희소 벡터 값을 사용했을 때 보다, SVM에 밀집 벡터 값을 사 용했을 때, F-Score 기준으로 2.6%의 향상이 있었다. 이로써 텍스트 분류에 있어 임베딩 모델을 활용한 밀집 벡터가 효과가 있 음을 알아냈다.
목차
ABSTRACT
1. 서론
2. 관련 연구
3. 임베딩 모델
4. 실험
4.1 실험 환경 및 수행
4.2 실험 결과
5. 결론
참고문헌
