earticle

논문검색

기획논문 : 인공지능(AI)과 인문학의 만남: 그 실제와 응용

AI 시대 데이터 기반 한시 연구는 어떻게 가능한가 - ‘한국 한시 데이터 아카이브’ 구축에 관하여 -

원문정보

How Is Data-Driven Research on Korean Sinitic Poetry Possible in the Age of AI? - Building a Korean Sinitic Poetry Archive -

지영원

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

This study aims to introduce the construction status of a Korean Hanshi dataset designed with the goal of implementing a Korean Hanshi Data Archive, and to discuss several elements considered necessary for this dataset to eventually take the form of a data archive. In particular, this paper prioritizes the construction of a commercially viable, machine-readable Korean Hanshi dataset and explores implementation strategies for the Korean Hanshi dataset by examining overseas cases. Furthermore, we have collected and shared approximately 350 literary collections and around 170,000 Hanshi poems from The Korean Classics Comprehensive DB(한국고 전종합DB) in the most complete form possible. We demonstrated through examples that the preservation of complete poetic forms, compared to previous work, has revealed several noteworthy findings. As additional major issues for implementing the Korean Hanshi Data Archive, we discussed subject classification, a dictionary of poetic allusions, and contextual information and authority control for figures and places. For subject classification, we attempted to find solutions in classical classification systems that reflect considerations of Hanshi tradition rather than modern classification approaches. Specifically, we discussed possible improvement measures based on the classification format of Pungsogwebeom(풍소궤 범), an early Joseon period anthology organized by literary genres. For the dictionary of poetic allusions, we discussed the practical impact and significance of glossaries on tagging, using the Han Yu Da Ci Dian(漢語大詞典) as an example. Regarding contextual information and authority control, while alternatives such as named entity recognition are being discussed, complete marking in Hanshi cases is not easily achieved, ultimately requiring expert intervention. Ultimately, a digital archive is like an ecosystem. Creating a research ecosystem that utilizes and manages it is the core strategy for the long-term success of the Korean Hanshi Data Archive.

한국어

본 연구는 한국 한시 데이터 아카이브 구현을 목표로 설계한 한국 한시 데이터셋의 구축 상황을 소개하고, 이 데이터셋이 추후 데이터 아카이브의 형태를 갖추기 위해 필요하 다고 여겨지는 몇 가지 요소에 대해 논의하는 데 목적을 둔다. 특히 본고에서는 상용 가능한 수준의 기계가독형 한국 한시 데이터셋 구축을 최우선적 인 과제로 보고, 해외 사례인 “chinese-poetry”와 비교하는 방식으로 한국 한시 데이터셋 의 구현 방안을 모색하여 보았다. 나아가 <한국고전종합DB>에 수록된 약 350여 종의 문 집, 17만 수 정도의 한시를 최대한 온전한 형태로 수록하고 이를 공유하였다. 이는 기존의 작업에 비해 시의 형태가 더욱 확실하게 밝혀져 있는 것으로, 이를 통해 수반되는 정보가 앞으로의 문학 연구에서 참고할 만한 것이 되기를 희망한다. 한국 한시 데이터 아카이브의 구현을 위한 또다른 주요 쟁점으로 주제 분류, 시어 전고사전, 인물·장소 등에 대한 문맥정보 및 전거 제어에 대해 논의하였다. 주제 분류의 경우, 조선 전기 분문찬류서 『풍소궤범』의 분류 형태를 기준으로 하여 가능한 개선 방안에 대해 논의하였다. 시어 전고 사전은 특히 『한어대사전』을 예시로 하여, 시어 사전(glossary)이 시어의 태깅에 미치는 실질적인 영향과 그 의의에 대해 논의하였다. 문맥정보 및 전거제어 의 경우, 개체명 인식 등의 대안이 논의되고 있지만 한시의 경우 기계적인 마킹은 쉽지 않을 것으로 여겨지며 결국 전문가의 판단이 필요할 것으로 보인다. 궁극적으로, 디지털 아카이브란 하나의 생태와 같다. 이를 활용하고 관리하는 연구 생태계를 조성하는 것이야말로 한국 한시 데이터 아카이브의 장기적 성공을 위한 핵심 전략 이라 하겠다.

목차

<국문초록>
1. 들어가며: 데이터 기반 한시 연구에 관해
2. ‘한국 한시 데이터셋’의 구축 현황 및 특징
3. ‘한국 한시 데이터 아카이브’ 구현을 위한 고민들
4. 나오며: 활물活物로서의 아카이브를 위해
참고문헌

저자정보

  • 지영원 Chi Yeong Won. 고려대학교 국어국문학과 박사수료생

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 5,500원

      0개의 논문이 장바구니에 담겼습니다.