본 연구는 사료적 가치가 있음에도 불구하고 주로 보존을 목적으로 관리해왔던 역사적 기록물에 대해 디지털화된 자료 환경으로 구축 및 활용하는데 목적을 두었다. 오천년의 역사를 가진 우리나라는 다양한 형태의 많은 기록물들이 있는데 조선시대 4대 관찬(官撰) 사료가 조선왕조실록(朝鮮王朝實錄), 승정원일기(承政院日記), 비변사등록(備邊司謄錄), 일성록(日省錄)이 있다. 이중에서 현재 국내에 우리말로 완역된 것은 조선왕조실록뿐이다. 대부분의 역사적 기록물을 적극적으로 활용하기 위해서는 전산화, 표준화가 필요하고, 정보 시스템 및 XML로 전환해야 한다고 주장하고 있으나 역사적 기록물을 분석 설계하고, 웹 서비스를 할 수 있는 XML 문서 구축 및 효율적 검색에 대한 연구는 미흡한 실정이다. 문서의 원문을 디지털화 할 수 있는 PDF방식을 주장도 하지만 역사적 기록물 자료 자체를 가공하고, 활용할 수 있는 측면에서는 효율성이 떨어진다는 단점도 있다. 또한 기존의 불리안식 일반 집합 이론(crisp set theory)에 기초를 둔 검색 방법으로 전문 이용자들의 전문성 있는 정보요구에 정확하게 표현하기에는 충분하지 못한 것이 사실이고, 몇 가지 약점을 지니고 있다. 그 중에서도 취약점으로 지적되는 것으로는 표현되는 각 문서들 개념간의 상대적 중요도를 표현하지 못하고, 문서들 간의 관계정도를 정확히 표현하지 못한다는 점이다. 대부분의 역사적 기록물은 한자어를 기반으로 기록되어 있고, 한자어는 중국어와 다르며, 서로 다른 특징들이 많아서 색인을 하는데 많은 영향을 미치므로 별도의 색인 기법을 제공해야지만 성능 향상을 꾀할 수 있다. 기존의 역사적 기록물에 대한 색인 방식은 대부분 다중 n-gram방식을 채택되었다. 그러나 이러한 색인 방식으로 처리할 때 색인의 크기가 매우 커지고, 다양한 확장 낱자 색인이 필요하다. 따라서 역사적 기록물 색인에 대체할 만한 기술이 요구되며 한국어와 한자어의 특성을 반영되어 정확한 색인어를 처리 할 수 있는 기법이 요구되고 있다. XML은 원시 자료 자체의 문서에 흡사하게 표현하고, 이를 웹 문서화로 가능하다. 이런 이유 때문에 XML로 구축된 문서를 효율적으로 저장하고, 검색활용을 위해 XML 색인어 및 질의어, 질의어 처리 분야에 현재 활발한 연구가 진행 중이다. 본 연구는 역사적 기록물에 대해서 단순 색인어로써는 잡아내기 어려운 역사적 흐름에 관한 자료들을 추출하여, 효과를 볼 수 있도록 (1)조선왕조실록의 XML 문서 처리에 적합하기 위한 구조 분석 (2)XML 문서의 자동화 생성 알고리즘을 제안 (3)XML 문서화하기 위한 문서유형정의(Document Type Definition, DTD) 설계 (4)색인 기법 (5)조선왕조실록의 XML 문서 구현 및 적용에 그 목적을 두고 있다. 본 연구를 수행하는 과정에서 사용한 실험 자료는 조선왕조실록 웹에 있는 한글 문서 인조 실록 2년 차(1624년) 1년 동안의 자료를 대상으로 “이괄의 난”에 관련된 색인 추출을 위해 실험을 했다.

It expected a lot of changes in mass media and documentation expression as documents on web are getting diverse, complex and massive. An Annals of The Chosun dynasty is a very important document used for researching historical facts and is published as Web and CD-ROM. However, The CD-ROM and Web was composed as content-based and using simple search method, therefor it's very difficult to make determine event-relationship between documents factors. Because of that, we studied to discover event-relationship between documents through clustering and efficient similarity method among Annals of The Chosun dynasty. And To develop Annals of the Chosun dynasty into XML Web documentation, we studied old books information system from bibliography and also, look into the feature of Annals of the Chosun dynasty. For the research method, we discovered the best similarity method for historical written documents through simulation similarity measures of Annals of The Chosun Dynasty documents, Then we did simulation-clustering documents based on simulation probability. To find out the similarity method for historical documents, we tested in different ways and got to know that Overlap Coefficient is the most proper to use. Then we make a clustering experiment with the document chosen from Overlap Coefficient. In evaluation of the clustered documents, the results were the same as when manually figured. In conclusion, this study shows the procedure of changing Annals of the Chosun dynasty into XML Web documentation and make Annals of the Chosun dynasty XML Web documentation to be utilized in a real world.

