원문정보
초록
영어
In this paper a clustering method based on genetic algorithm is applied to web page clustering problem. We applied the distance metric of k-means clustering algorithm to the fitness function of genetic algorithm. To cluster data, we have to establish a standard evaluation about the similarity of data, so as pre-process to evaluate web pages. We presented a web page using vector space model as one of the standard information retrieval methods. In many clustering environment, there have typically been used k-means clustering algorithm. In this paper, the web page clustering problem is solved by using genetic algorithm, and outperformed to the conventional kmeans clustering algorithm.
한국어
본 연구에서는 유전알고리즘을 활용하여 웹페이지 클러스터링을 효과적으로 수행하는 방법을 제안했다. 기존에는 여러 가지 클러스터링 환경에서 대개 K-means클러스터링 방식을 사용해왔다. 여 기서는 이 둘을 비교함에 있어서, 거리함수를 제안하고 유전알고리즘의 적합도 함수를 사용하였다. 데 이터를 클러스터링하기 위하여는 데이터 사이의 유사도를 구해야 하며, 여기서는 웹페이지들을 전처 리하는 기법 중에서 정보검색에서 전형적으로 사용하는 벡터공간모형(vector space model)을 적용하 였다. 그 효용성을 수행도 실험을 통해 입증하였으며, 기존의 방식에 비해 탁월하다는 것을 보였다.
목차
Abstract
1. 서론
2. 이론적 배경
2.1 웹 페이지 평가 기법
2.2 k-means 클러스터링 기법
2.3 유전 알고리즘(Genetic Algorithm)
3. 웹 페이지 클러스터링 유전 알고리즘(GAclustering)
3.1 해의 표현(Representation)
3.2 초기해 추출(Initialization)
3.3 적응도 계산(Compute fitness value)
3.4. 선택(Selection)
3.5 교배(Crossover)
3.6. 변이(Mutation)
3.7 종료조건(Termination criterion)
3.8 엘리트 전략(Elitist strategy)
4. 실험 및 결과분석
5. 결론
참고문헌