earticle

논문검색

Session 4 : 인터넷/인트라넷과 안전

문서 분류에서 단어의 통계 정보를 이용한 특징 선택 기법의 비교

원문정보

Comparison of Feature Selection Methods using the Statistics of Words in Text Categorization

임윤택, 윤충화

피인용수 : 0(자료제공 : 네이버학술정보)

초록

한국어

정보 검색 분야의 문서 분류에 기계 학습 기법을 적용할 때 발생하는 가장 큰 문제는 문서를 패턴으로 표현할 때, 하나의 패턴이 가지는 특징의 수가 기계 학습 기법에서 처리할 수 있는 범위를 넘어서는 것이다. 이러한 문제를 해결하기 위하여 특징 선택 기법은 패턴을 구성하고 있는 특징 중에서 실제 문서 분류에 많은 영향을 주는 특징만을 선택하여, 기계 학습 기법에서 쉽게 처리할 수 있을 정도의 패턴을 구성하게 한다. 본 논문에서는 이러한 특징 선택 기법 중에서 IG(Information Gain), Gini index, Relief-F, DF(Document Frequency)를 비교하였다. 실험 결과 문서들에 포함된 모든 고유 단어를 특징의 길이로 하여 패턴을 구성했을 때보다 특징 선택 기법을 적용하여 고유 단어 중 일부를 특징으로 패턴을 구성할 때 기계학습에서 더 향상된 분류 성능을 보였다

목차

요약
 1. 서론
 2. 특징 선택 기법
  2.1 Information Gain(lG)
  2.2 Gini
  2.3 Relief-F
  2.4 Document Frequency(DF)
 3. 학습 기법
 4. 실험 결과 및 분석
  4.1 실험 방법
  4.2 분류 성능 실험
 5. 결론
 참고문헌

저자정보

  • 임윤택 Rim Yun-Taek. 명지대학교 컴퓨터공학과
  • 윤충화 Yoon Chung-Hwa. 명지대학교 컴퓨터공학과

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.