원문정보
Comparison of Feature Selection Methods using the Statistics of Words in Text Categorization
피인용수 : 0건 (자료제공 : 네이버학술정보)
초록
한국어
정보 검색 분야의 문서 분류에 기계 학습 기법을 적용할 때 발생하는 가장 큰 문제는 문서를 패턴으로 표현할 때, 하나의 패턴이 가지는 특징의 수가 기계 학습 기법에서 처리할 수 있는 범위를 넘어서는 것이다. 이러한 문제를 해결하기 위하여 특징 선택 기법은 패턴을 구성하고 있는 특징 중에서 실제 문서 분류에 많은 영향을 주는 특징만을 선택하여, 기계 학습 기법에서 쉽게 처리할 수 있을 정도의 패턴을 구성하게 한다. 본 논문에서는 이러한 특징 선택 기법 중에서 IG(Information Gain), Gini index, Relief-F, DF(Document Frequency)를 비교하였다. 실험 결과 문서들에 포함된 모든 고유 단어를 특징의 길이로 하여 패턴을 구성했을 때보다 특징 선택 기법을 적용하여 고유 단어 중 일부를 특징으로 패턴을 구성할 때 기계학습에서 더 향상된 분류 성능을 보였다
목차
요약
1. 서론
2. 특징 선택 기법
2.1 Information Gain(lG)
2.2 Gini
2.3 Relief-F
2.4 Document Frequency(DF)
3. 학습 기법
4. 실험 결과 및 분석
4.1 실험 방법
4.2 분류 성능 실험
5. 결론
참고문헌
1. 서론
2. 특징 선택 기법
2.1 Information Gain(lG)
2.2 Gini
2.3 Relief-F
2.4 Document Frequency(DF)
3. 학습 기법
4. 실험 결과 및 분석
4.1 실험 방법
4.2 분류 성능 실험
5. 결론
참고문헌
저자정보
참고문헌
자료제공 : 네이버학술정보