원문정보
A Study on Simplification of Machine Learning Model
초록
영어
One of major issues in machine learning that extracts and acquires knowledge implicit in data is to find an appropriate way of representing it. Knowledge can be represented by a number of structures such as networks, trees, lists, and rules. The differences among these exist not only in their structures but also in effectiveness of the models for their problem solving capability. In this paper, we propose partition utility as a criterion function for clustering that can lead to simplification of the model and thus avoid overfitting problem. In addition, a heuristic is proposed as a way to construct balanced hierarchical models.
한국어
데이터에 내포되어 있는 주요 정보나 지식을 추출해 내는 기계학습 방법에서 주요 이슈의 하나는 지식 표현방식이다. 여러 가지 구조로 표현될 수 있는 지식을 모델이라고 부른다. 모델에는 그 내부 구조에 따라 트리구조, 네트워크 구조, 리스트 구조, 규칙 등 다양한 구조로 나눈다. 구조의 차이는 단지 표현의 차이뿐만 아니라 그것이 갖는 문제해결 능력에도 차이가 있다. 본 논문에서는 모델을 간략화 시켜 오버피팅 문제를 해결하고 분류 능력을 향상시키는 방법을 제안한다. 모델을 단순화 시키는데 사용되는 파티션 유틸리티 기준함수 제시하고 휴리스틱을 이용하여 균형 잡힌 계층 구조를 생성하는 방법을 제안한다.
목차
Abstract
I. 서론
II. 단순성 원리
III. 모델의 간략화
IV. 실험 및 결과
1. PU에 의한 모델 구축
2. 휴리스틱에 의한 모델의 간략화
V. 결론
References