원문정보
초록
영어
Text mining techniques for analyzing and utilizing large-scale text data are widely used not only in engineering but also in social sciences, education, and almost all academic fields. This study aims to collect and analyze domestic academic and thesis papers on text mining using the latest text mining techniques. For this purpose, papers were collected from the Research Information Sharing Service (RISS) database using the keyword ‘text mining’, and keyword analysis and topic modeling were conducted on the collected papers. In keyword analysis, frequency-based analysis using TF-IDF and analysis using BERT-based KeyBERT were compared. Additionally, in topic modeling analysis, traditional statistical-based LDA techniques were compared with BERTopic, a topic modeling technique based on the latest BERT language model. The results showed that BERT-based topic analysis demonstrated superior performance in terms of coherence score. Particularly, the topic extraction based on Korean embedding models and Keybert recorded higher coherence scores compared to those based on multilingual models and sentence-based extraction. Through these findings, this study aims to present the applicability and potential of the latest techniques in Korean text mining.
한국어
대량의 텍스트 데이터를 분석하고 활용하는 텍스트 마이닝 기법은 공학 분야뿐만 아니라 사회 과학과 교육 등 거의 모든 학문 분야에서 널리 사용되고 있다. 특히 최근 대규모 언어 모델의 급속한 발전은 기존 텍스트 마이닝 기법의 한계를 보완하는 혁신적인 방법들을 도입하는 데 기여하고 있다. 본 연구의 목적은 국내 학술 및 학위 논문을 수집하여 최신 텍스트 마이닝 기법을 활용해 분석하는 것 이다. 이를 위해 학술연구정보서비스(RISS) 데이터베이스에서 ‘텍스트 마이닝’을 키워드로 논문을 수 집하였고, 수집된 논문들에 대해 키워드 분석과 토픽 모델링을 수행하였다. 키워드 분석에서는 TFIDF를 활용한 빈도 기반 분석과 BERT 기반의 KeyBERT를 활용한 분석을 비교하였다. 또한, 토픽 모델링 분석에서는 기존 통계 기반의 LDA 기법과 최신 언어 모델인 BERT 기반의 토픽 모델링 기 법인 BERTopic을 비교하였다. 그 결과, BERT 기반의 토픽 분석이 응집도(Coherence Score) 점수 에서 보다 우수한 성능을 나타냈다. 특히, Bertopic에서 한국어 임베딩 모델과 Keybert 기반의 토픽 추출이 다국어 모델과 문장 기반의 추출보다 더 높은 응집도 점수를 기록하였다. 본 연구는 이러한 결 과를 통해 한국어 텍스트 마이닝에서 최신 기법들의 적용과 활용 가능성을 제시하고자 한다.
목차
Abstract
1. 서론
2. 이론적 배경
2.1 TF-IDF와 n-gram
2.2 LDA Topic Modeling
2.3 Keybert와 Bertopic
3. 연구 방법
4. 연구 결과
4.1 연구동향 분석
4.2 키워드 분석
4.3 토픽 모델링
5. 결론 및 시사점
REFERENCES
