원문정보
How Is Data-Driven Research on Korean Sinitic Poetry Possible in the Age of AI? - Building a Korean Sinitic Poetry Archive -
초록
영어
This study aims to introduce the construction status of a Korean Hanshi dataset designed with the goal of implementing a Korean Hanshi Data Archive, and to discuss several elements considered necessary for this dataset to eventually take the form of a data archive. In particular, this paper prioritizes the construction of a commercially viable, machine-readable Korean Hanshi dataset and explores implementation strategies for the Korean Hanshi dataset by examining overseas cases. Furthermore, we have collected and shared approximately 350 literary collections and around 170,000 Hanshi poems from The Korean Classics Comprehensive DB(한국고 전종합DB) in the most complete form possible. We demonstrated through examples that the preservation of complete poetic forms, compared to previous work, has revealed several noteworthy findings. As additional major issues for implementing the Korean Hanshi Data Archive, we discussed subject classification, a dictionary of poetic allusions, and contextual information and authority control for figures and places. For subject classification, we attempted to find solutions in classical classification systems that reflect considerations of Hanshi tradition rather than modern classification approaches. Specifically, we discussed possible improvement measures based on the classification format of Pungsogwebeom(풍소궤 범), an early Joseon period anthology organized by literary genres. For the dictionary of poetic allusions, we discussed the practical impact and significance of glossaries on tagging, using the Han Yu Da Ci Dian(漢語大詞典) as an example. Regarding contextual information and authority control, while alternatives such as named entity recognition are being discussed, complete marking in Hanshi cases is not easily achieved, ultimately requiring expert intervention. Ultimately, a digital archive is like an ecosystem. Creating a research ecosystem that utilizes and manages it is the core strategy for the long-term success of the Korean Hanshi Data Archive.
한국어
본 연구는 한국 한시 데이터 아카이브 구현을 목표로 설계한 한국 한시 데이터셋의 구축 상황을 소개하고, 이 데이터셋이 추후 데이터 아카이브의 형태를 갖추기 위해 필요하 다고 여겨지는 몇 가지 요소에 대해 논의하는 데 목적을 둔다. 특히 본고에서는 상용 가능한 수준의 기계가독형 한국 한시 데이터셋 구축을 최우선적 인 과제로 보고, 해외 사례인 “chinese-poetry”와 비교하는 방식으로 한국 한시 데이터셋 의 구현 방안을 모색하여 보았다. 나아가 <한국고전종합DB>에 수록된 약 350여 종의 문 집, 17만 수 정도의 한시를 최대한 온전한 형태로 수록하고 이를 공유하였다. 이는 기존의 작업에 비해 시의 형태가 더욱 확실하게 밝혀져 있는 것으로, 이를 통해 수반되는 정보가 앞으로의 문학 연구에서 참고할 만한 것이 되기를 희망한다. 한국 한시 데이터 아카이브의 구현을 위한 또다른 주요 쟁점으로 주제 분류, 시어 전고사전, 인물·장소 등에 대한 문맥정보 및 전거 제어에 대해 논의하였다. 주제 분류의 경우, 조선 전기 분문찬류서 『풍소궤범』의 분류 형태를 기준으로 하여 가능한 개선 방안에 대해 논의하였다. 시어 전고 사전은 특히 『한어대사전』을 예시로 하여, 시어 사전(glossary)이 시어의 태깅에 미치는 실질적인 영향과 그 의의에 대해 논의하였다. 문맥정보 및 전거제어 의 경우, 개체명 인식 등의 대안이 논의되고 있지만 한시의 경우 기계적인 마킹은 쉽지 않을 것으로 여겨지며 결국 전문가의 판단이 필요할 것으로 보인다. 궁극적으로, 디지털 아카이브란 하나의 생태와 같다. 이를 활용하고 관리하는 연구 생태계를 조성하는 것이야말로 한국 한시 데이터 아카이브의 장기적 성공을 위한 핵심 전략 이라 하겠다.
목차
1. 들어가며: 데이터 기반 한시 연구에 관해
2. ‘한국 한시 데이터셋’의 구축 현황 및 특징
3. ‘한국 한시 데이터 아카이브’ 구현을 위한 고민들
4. 나오며: 활물活物로서의 아카이브를 위해
참고문헌
